基于句法结构和篇章结构的统计机器翻译关键技术研究
项目介绍
AI项目解读
基本信息
- 批准号:61373095
- 项目类别:面上项目
- 资助金额:79.0万
- 负责人:
- 依托单位:
- 学科分类:F0211.信息检索与社会计算
- 结题年份:2017
- 批准年份:2013
- 项目状态:已结题
- 起止时间:2014-01-01 至2017-12-31
- 项目参与者:陈文亮; 贡正仙; 李生; 黄艳伟; 刘欢欢;
- 关键词:
项目摘要
Structured knowledge of natural languages at syntactic and discourse levels is one kind of the most important features of natural languages. Statistical syntax-based machine translation treats machine translation as a process of converting source structures to target ones at single sentence level. Therefore, cross-language structure divergence and cross-sentence discourse information deficiency are two fundamental issues for the state-of-the-art statistical syntax-based machine translation. This proposal aims to focus on the following researches to address the two fundamental issues aforementioned: 1) from bilingual alignment and mapping viewpoints, study weakly-supervised and unsupervised bilingual grammar induction algorithms, automatically construct machine translation-oriented bilingual grammar rule systems and mapping mechanisms in order to solve the cross-language structure divergence issue; 2) establish the discourse-based model for statistical machine translation in order to impose consistent discourse structures and fundamental discourse features between source and target languages, and thus fill in the discourse information deficiency in the state-of-the-art statistical machine translation research. The research achievements from this proposal will establish the foundation of theory and technology for next generation syntax-based statistical machine translation, and provide guidance to deep semantic structures-based statistical machine translation in the future.
语言的结构性,包括句法和篇章等结构信息,是语言的基本特征之一。统计句法机器翻译把翻译看作是一个从源语言到目标语言的句法结构转换过程,而这种转换过程目前是以单一句子为基本单位进行的。因此,跨语言句法结构差异性和跨句子篇章结构信息的缺失是目前统计句法机器翻译面临的两个核心问题。本项目拟围绕这两个问题展开以下创新性研究:1)从双语映射角度出发,研究弱指导和无指导的双语句法推导算法,自动构建适合机器翻译的双语句法规则体系和映射机制,进而解决跨语言句法结构差异性;2)建立篇章级翻译模型,使得源语言篇章结构信息和篇章基本特征在目标语言中得到体现,使生成的目标语言具有良好的篇章一致性,进而填补机器翻译中篇章信息缺失这一研究空白。本项目预期成果不仅可以为下一代统计句法机器翻译奠定理论和技术基础,同时也可以为未来基于深层语义结构信息的统计机器翻译提供借鉴。
结项摘要
本项目研究语言间的结构性差异,从句法级别和篇章级别研究双语间的差异并对此建模,从而使统计机器翻译模型更好地处理跨语言句法结构差异性和跨句子篇章结构信息的缺失问题。本项目分别从两个方面开展研究:1)从双语句法映射角度出发,研究基于弱指导和无指导的双语句法推导,从而解决跨语言句法结构差异性;2)从双语篇章结构的映射角度出发,研究双语篇章话题分布以及双语篇章词汇语义等连接关系,从而改进机器翻译篇章级别的一致性和准确性。这两个方面的研究为统计机器翻译提供了理论和技术基础,在国际顶级学术期刊和学术会议发表论作,并就句法结构分析和机器翻译研究分别出版了两本专著,为未来基于深层语义结构信息的机器翻译研究提供参考和借鉴。
项目成果
期刊论文数量(5)
专著数量(2)
科研奖励数量(0)
会议论文数量(11)
专利数量(2)
基于双语合成语义的翻译相似度模型
- DOI:10.13209/j.0479-8023.2015.031
- 发表时间:--
- 期刊:北京大学学报(自然科学版) (录用待发表)
- 影响因子:--
- 作者:王超超;熊德意;张民
- 通讯作者:张民
Topic-Based Dissimilarity and Sensitivity Models for Translation Rule Selection
用于翻译规则选择的基于主题的相异性和敏感性模型
- DOI:10.1613/jair.4265
- 发表时间:2014-05
- 期刊:Journal of Artificial Intelligence Research
- 影响因子:5
- 作者:Min Zhang;Xinyan Xiao;Deyi Xiong;Qun Liu
- 通讯作者:Qun Liu
Distributed Feature Representations for Dependency Parsing
用于依存分析的分布式特征表示
- DOI:10.1109/taslp.2014.2365359
- 发表时间:2015-03-01
- 期刊:IEEE-ACM TRANSACTIONS ON AUDIO SPEECH AND LANGUAGE PROCESSING
- 影响因子:5.4
- 作者:Chen, Wenliang;Zhang, Min;Zhang, Yue
- 通讯作者:Zhang, Yue
共 3 条
- 1
其他文献
植物诱抗剂对尿素氮利用率和小麦产量的影响
- DOI:10.13870/j.cnki.stbcxb.2018.04.052
- 发表时间:2018
- 期刊:水土保持学报
- 影响因子:--
- 作者:秦瑞劼;张民;刘之广;李泽丽;陈琪;王庆彬
- 通讯作者:王庆彬
大埋深破碎顶板煤层切顶卸压成巷技术研究
- DOI:10.13199/j.cnki.cst.2017.09.014
- 发表时间:2017
- 期刊:煤炭科学技术
- 影响因子:--
- 作者:杨晓杰;王二雨;张民;王嘉敏;王进
- 通讯作者:王进
棕鞭毛虫牧食作用对铜绿微囊藻形态和生理特性的影响
- DOI:--
- 发表时间:--
- 期刊:湖泊科学
- 影响因子:--
- 作者:张民;孔繁翔;曹焕生;杨州;史小丽
- 通讯作者:史小丽
基于语义空间距离的相似问句识别方法研究
- DOI:--
- 发表时间:--
- 期刊:中文信息学报
- 影响因子:--
- 作者:陈鑫;洪宇;朱朦朦;张民
- 通讯作者:张民
基于自监督学习的维基百科家庭关系抽取
- DOI:--
- 发表时间:2015
- 期刊:计算机应用
- 影响因子:--
- 作者:朱苏阳;惠浩添;钱龙华;张民
- 通讯作者:张民
共 139 条
- 1
- 2
- 3
- 4
- 5
- 6
- 28
张民的其他基金
以汉语为核心的低资源机器翻译研究
- 批准号:62261160648
- 批准年份:2022
- 资助金额:165.00 万元
- 项目类别:国际(地区)合作与交流项目
噪声环境下鲁棒机器翻译方法研究
- 批准号:62036004
- 批准年份:2020
- 资助金额:309 万元
- 项目类别:重点项目
面向多层次篇章语义的机器翻译理论、方法与实现
- 批准号:61432013
- 批准年份:2014
- 资助金额:350.0 万元
- 项目类别:重点项目