RI: Small: Developing Large Scale Distributed Syntactic, Semantic and Lexical Language Models for Machine Translation and Speech Recognition
RI:小型:开发用于机器翻译和语音识别的大规模分布式句法、语义和词汇语言模型
基本信息
- 批准号:1218863
- 负责人:
- 金额:$ 46万
- 依托单位:
- 依托单位国家:美国
- 项目类别:Continuing Grant
- 财政年份:2012
- 资助国家:美国
- 起止时间:2012-08-01 至 2016-07-31
- 项目状态:已结题
- 来源:
- 关键词:
项目摘要
This project aims to build large scale distributed syntactic, semantic, and lexical language models that are trained by corpora with up to Web-scale data on a supercomputer in order to substantially improve the performance of machine translation and speech recognition systems. It is conducted under the directed Markov random field paradigm to integrate both topics and syntax to form complex distributions for natural language, and uses hierarchical Pitman-Yor processes to model long-tail properties of natural language. By exploiting this particular structure, the complex statistical estimation and inference algorithms are decomposed and performed in a distributed environment. The language models are put into one-pass decoders of machine translation systems, and the lattice rescoring decoder into a speech recognition system. In addition, a principled solution to a long-standing open problem, smoothing fractional counts due to latent variables in Kneser-Ney's sense, might be found. This project fits into the NSF's strategic long term vision of a Cyber-infrastructure Framework for 21st Century Science and Engineering (CIF21). The project integrates various kinds of known language models and provides a way to overcome the limitations of existing combination methods for language models and to deploy algorithmically interesting methodologies that are scalable to data sets available on the Web. The project provides an environment for interdisciplinary education in information technology that bridges areas of language and speech processing, machine learning, and data-intensive science and engineering to benefit students at several levels.
该项目旨在构建大规模分布式句法、语义和词汇语言模型,并通过超级计算机上的语料库和网络规模的数据进行训练,以大幅提高机器翻译和语音识别系统的性能。 它在有向马尔可夫随机场范式下进行,整合主题和语法以形成自然语言的复杂分布,并使用分层 Pitman-Yor 过程对自然语言的长尾属性进行建模。 通过利用这种特殊的结构,复杂的统计估计和推理算法被分解并在分布式环境中执行。 将语言模型放入机器翻译系统的一次性解码器中,并将格重评分解码器放入语音识别系统中。 此外,可能会找到一个长期悬而未决的问题的原则性解决方案,即平滑由克内瑟-内伊意义上的潜在变量引起的分数计数。该项目符合 NSF 21 世纪科学与工程网络基础设施框架 (CIF21) 的战略长期愿景。 该项目集成了各种已知的语言模型,并提供了一种方法来克服现有语言模型组合方法的局限性,并部署可扩展至网络上可用数据集的算法上有趣的方法。 该项目为信息技术跨学科教育提供了一个环境,将语言和语音处理、机器学习以及数据密集型科学与工程领域联系起来,使多个层次的学生受益。
项目成果
期刊论文数量(0)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
数据更新时间:{{ journalArticles.updateTime }}
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
数据更新时间:{{ journalArticles.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ monograph.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ sciAawards.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ conferencePapers.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ patent.updateTime }}
Shaojun Wang其他文献
Shape Time Discriminative Classification of Video Objects
视频对象的形状时间判别分类
- DOI:
- 发表时间:
- 期刊:
- 影响因子:0
- 作者:
Li Cheng;Baochun Bai;C. Lei;Dale Schuurmans;Shaojun Wang - 通讯作者:
Shaojun Wang
Manipulating the directional emission of monolayer semiconductors by dielectric nanoantenna arrays
通过介电纳米天线阵列操纵单层半导体的定向发射
- DOI:
10.1088/2040-8986/ac431a - 发表时间:
2021-12-14 - 期刊:
- 影响因子:2.1
- 作者:
Peng Liu;Zhenghe Zhang;M. Lang;Wanli Lu;P. Bai;Zefeng Chen;Shaojun Wang;Xiaofeng Li - 通讯作者:
Xiaofeng Li
Boosting with incomplete information
不完整信息的提升
- DOI:
10.1145/1390156.1390203 - 发表时间:
2008-07-05 - 期刊:
- 影响因子:0
- 作者:
Gholamreza Haffari;Yang Wang;Shaojun Wang;Greg Mori;Feng Jiao - 通讯作者:
Feng Jiao
Cone Angle Modulation of Silicon Nanocones through Double Etching Processes in Metal-Assisted Chemical Etching
金属辅助化学蚀刻中通过双蚀刻工艺调节硅纳米锥的锥角
- DOI:
10.1088/1742-6596/2463/1/012004 - 发表时间:
2023-03-01 - 期刊:
- 影响因子:0
- 作者:
Hui;Chenyu Bian;Cheng Zhang;Shaojun Wang;Bingchang Zhang - 通讯作者:
Bingchang Zhang
A boosting method for direct AUC optimization
一种直接 AUC 优化的 boosting 方法
- DOI:
10.1109/chinasip.2015.7230514 - 发表时间:
2015-07-12 - 期刊:
- 影响因子:0
- 作者:
Zhongliang Li;Shaodan Zhai;Tian Xia;Shaojun Wang - 通讯作者:
Shaojun Wang
Shaojun Wang的其他文献
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
{{ truncateString('Shaojun Wang', 18)}}的其他基金
RI-Small: Exploiting Syntactic, Semantic and Lexical Regularities in Statistical Language Modeling
RI-Small:在统计语言建模中利用句法、语义和词汇规律
- 批准号:
0812483 - 财政年份:2008
- 资助金额:
$ 46万 - 项目类别:
Standard Grant
相似国自然基金
PPIA/MTHFD2信号促进结直肠癌发生发展的作用机制及小分子干预研究
- 批准号:82373913
- 批准年份:2023
- 资助金额:49 万元
- 项目类别:面上项目
下调UBE2C促进小胶质细胞自噬清除Aβ延缓阿尔茨海默病发生发展的机制研究
- 批准号:82301631
- 批准年份:2023
- 资助金额:30 万元
- 项目类别:青年科学基金项目
YTHDF3调控视网膜小胶质细胞功能介导葡萄膜炎发生发展的作用机制研究
- 批准号:82371045
- 批准年份:2023
- 资助金额:49 万元
- 项目类别:面上项目
核糖体蛋白RPL35A调节FOXO1与SIRT2乙酰化解离诱导自噬促进非小细胞肺癌发生发展及获得性耐药的机制研究
- 批准号:82360461
- 批准年份:2023
- 资助金额:32 万元
- 项目类别:地区科学基金项目
FAK-LINC01089负反馈环路调控小细胞肺癌发生发展和耐药的机制研究
- 批准号:
- 批准年份:2022
- 资助金额:30 万元
- 项目类别:青年科学基金项目
相似海外基金
Developing a clinically-relevant genetically engineered mouse model for Nut carcinoma
开发临床相关的坚果癌基因工程小鼠模型
- 批准号:
10554577 - 财政年份:2023
- 资助金额:
$ 46万 - 项目类别:
Developing Autophagy-Targeting Chimeras and Optimizing Cell Penetration of Large-Molecule Therapeutics
开发自噬靶向嵌合体并优化大分子治疗的细胞渗透
- 批准号:
10558145 - 财政年份:2023
- 资助金额:
$ 46万 - 项目类别:
Developing a novel system combining cognitive assessment with PASCALL FDA-cleared intraoperative anesthesia EEG brain monitor to prevent postoperative neurocognitive disorders in aging patients
开发一种将认知评估与 FDA 批准的 PASCALL 术中麻醉脑电图脑监测仪相结合的新型系统,以预防老年患者术后神经认知障碍
- 批准号:
10760816 - 财政年份:2023
- 资助金额:
$ 46万 - 项目类别:
Identification and characterization of early encystation genes in the human parasite Entamoeba histolytica
人类寄生虫溶组织内阿米巴早期成囊基因的鉴定和表征
- 批准号:
10647086 - 财政年份:2023
- 资助金额:
$ 46万 - 项目类别: