基于枢轴语言的汉越句法统计翻译方法研究
项目介绍
AI项目解读
基本信息
- 批准号:61672271
- 项目类别:面上项目
- 资助金额:61.0万
- 负责人:
- 依托单位:
- 学科分类:F0211.信息检索与社会计算
- 结题年份:2020
- 批准年份:2016
- 项目状态:已结题
- 起止时间:2017-01-01 至2020-12-31
- 项目参与者:高盛祥; 王红斌; 文永华; 马磊; 陈玮; 陈秀琴; 王煜景; 王卓; 吴飞;
- 关键词:
项目摘要
Under the background of the national strategy of “the Belt and Road”, Chinese-Vietnamese bilingual machine translation plays an important role in promoting bilateral communications and exchanges in all fields such as politics, economy and culture. This project, aiming at the facts that there are dramatic grammatical differences between Chinese and Vietnamese and that the bilingual corpus are very few, will do its research on Chinese-Vietnamese tree-to-tree syntactic statistical machine translation oriented bilingual language differences and the research on Chinese-Vietnamese syntactic statistical machine translation based on pivot language (here using English). Firstly, we plan to analyze the language differences between Chinese and Vietnamese, to fuse their language features into learning and decoding process of the tree-to-tree translation model, and to propose a tree-to-tree syntax machine translation method which will fit the feature of Chinese and Vietnamese well. Secondly, aiming at the lack of Chinese-Vietnamese corpus, we plan to propose a Chinese-Vietnamese phrase machine translation using English as pivot language, in which we extract a large-scale Chinese-Vietnamese phrase translation rules table with probability based on the pivot language. And then, we will analyze the alignment between Chinese-English phrase-structure tree and English-Vietnamese phrase-structure tree, so that we will propose a Chinese-Vietnamese tree-to-tree machine translation based on pivot language (English), in which we can obtain a certain-scale Chinese-Vietnamese phrase-structure tree translation rules by using large-scale corpus of Chinese-English and English-Vietnamese. At last, to take full advantages of all the different methods aforementioned, we plan to explore the fusion method of the Chinese-Vietnamese tree-to-tree translation method, the Chinese-Vietnamese phrase translation method based on pivot language, and the Chinese-Vietnamese tree-to-tree translation method based on pivot language, which can solve the difficult problems in Chinese-Vietnamese machine translation, such as the grammatical difference and the corpus being poor, and has a very important value to Chinese-Vietnamese machine translation in both theoretical and practical aspect.
在国家一带一路战略背景下,汉越双语机器翻译对推动两国在政治、经济、文化等方面交流有非常重要的作用。课题将针对汉语与越南语语法差异大、语料稀缺特点,开展面向汉越语言差异的树到树句法统计翻译及基于枢轴语言(英语)的句法统计翻译方法研究。首先,分析汉越语言差异特性,将语言特点融合到树到树学习与解码过程中,提出适合汉越语言特性的树到树句法翻译方法;其次,针对汉越语料稀缺问题,提出以英语为枢轴语言的汉越短语翻译方法,基于枢轴语言提取大规模概率化汉越短语翻译规则表;然后,分析汉英、英越短语句法树对应关系,提出基于枢轴语言(英语)的汉越树到树翻译方法,利用大规模枢轴语言(英语)获得具有一定规模的汉越短语树句法翻译规则;最后,针对不同翻译方法的优缺点,提出汉越树到树翻译、枢轴短语翻译及枢轴树到树翻译的融合方法,解决汉越双语翻译面临的语言差异及语料稀缺等难点问题,对汉越翻译有着非常重要的理论与实际应用价值。
结项摘要
基于枢轴语言的机器翻译是解决低资源机器翻译的主要手段之一,项目围绕汉-越双语词典构建、汉-越双语平行语料库构建、汉-越句法统计机器翻译、枢轴语言机器翻译等关键难点问题进行研究与探讨,在以下6个方面取得了进展:1.汉-越双语词典构建方面,提出基于英语枢轴的弱监督汉-越双语词典构建方法,利用枢轴语料抽取17万汉-越双语词典。2.在汉-越双语平行语料库构建方面,提出基于枢轴语言的汉-越伪平行语料生成方法及融合句法结构及Tree-LSTM的汉-越平行句对抽取方法,利用枢轴回译及枢轴抽取的方式生成了近400万汉-越双语平行语料。3.在基于短语的汉-越机器翻译方面,提出融合语言位置特征的汉-越机器翻译方法,利用词汇化调序模型对符合语言特性的规则进行权重调优,得到更符合语法规则的译文;提出基于记忆网络融合词汇翻译概率的汉-越机器翻译方法,将统计机器翻译中词汇翻译概率融入神经机器翻译模型,提升了汉越神经机器翻译的性能。4.在基于句法的汉-越机器翻译方法方面,提出融合语言差异特点的汉-越树到树统计机器翻译方法,将语言差异特征融入句法统计机器翻译中,提出融合句法解析树的汉-越神经机器翻译方法,将句法信息融入神经机器翻译模型的编码过程,均有效提升了翻译质量。5.在基于枢轴的汉-越机器翻译方面,提出基于迁移学习的汉-越神经机器翻译方法,实现英-汉、英-越翻译模型到汉-越翻译模型之间的知识迁移,提出基于枢轴的汉-越联合训练神经机器翻译方法,借助英-汉、英-越翻译模型提升汉-越机器翻译模型的性能。6.研发了汉-越机器翻译系统,实现汉语-越南语之间的双向翻译,系统在网信、国安、军方等多个领域得到应用。发表论文21篇,其中SCI收录3篇,EI收录4篇,授权国家发明专利3项,受理国家发明专利17项。承办CCFAI2017,CCL2019等国内该领域的学术会议,参加国际国内学术会议61人次。获得国务院特殊津贴1人,获得省级人才6人次,培养硕士19人、博士1人,获得3篇省级优秀硕士论文。
项目成果
期刊论文数量(16)
专著数量(0)
科研奖励数量(0)
会议论文数量(5)
专利数量(20)
Phrase-based Chinese-Vietnamese pseudo-parallel sentence pair generation
基于短语的汉越伪平行句对生成
- DOI:10.1103/physrevapplied.9.014016
- 发表时间:2019
- 期刊:Machine Translation
- 影响因子:1.9
- 作者:翟家欣;余正涛;高盛祥;王振晗;普浏清
- 通讯作者:普浏清
Syntax-Based Chinese-Vietnamese Tree-to-Tree Statistical Machine Translation with Bilingual Features
基于句法的具有双语特征的汉越树到树统计机器翻译
- DOI:10.1145/3314938
- 发表时间:2019
- 期刊:ACM Transactions on Asian and Low-Resource Language Information Processing
- 影响因子:2
- 作者:Shengxiang Gao;Jihao Huang;Mingya Xue;Zhengtao Yu;Zhuo Wang;Yang Zhang
- 通讯作者:Yang Zhang
基于迁移学习的汉越神经机器翻译
- DOI:--
- 发表时间:2019
- 期刊:厦门大学学报(自然科学版)
- 影响因子:--
- 作者:黄继豪;余正涛;于志强;文永华
- 通讯作者:文永华
融合句法解析树的汉-越卷积神经机器翻译
- DOI:10.13328/j.cnki.jos.005889
- 发表时间:2020
- 期刊:软件学报
- 影响因子:--
- 作者:王振晗;何建雅琳;余正涛;文永华;郭军军;高盛祥
- 通讯作者:高盛祥
基于枢轴语言的汉越神经机器翻译伪平行语料库构建
- DOI:--
- 发表时间:2020
- 期刊:计算机工程与科学
- 影响因子:--
- 作者:贾承勋;赖华;余正涛;文永华;于志强
- 通讯作者:于志强
数据更新时间:{{ journalArticles.updateTime }}
{{
item.title }}
{{ item.translation_title }}
- DOI:{{ item.doi || "--"}}
- 发表时间:{{ item.publish_year || "--" }}
- 期刊:{{ item.journal_name }}
- 影响因子:{{ item.factor || "--"}}
- 作者:{{ item.authors }}
- 通讯作者:{{ item.author }}
数据更新时间:{{ journalArticles.updateTime }}
{{ item.title }}
- 作者:{{ item.authors }}
数据更新时间:{{ monograph.updateTime }}
{{ item.title }}
- 作者:{{ item.authors }}
数据更新时间:{{ sciAawards.updateTime }}
{{ item.title }}
- 作者:{{ item.authors }}
数据更新时间:{{ conferencePapers.updateTime }}
{{ item.title }}
- 作者:{{ item.authors }}
数据更新时间:{{ patent.updateTime }}
其他文献
用深度可信网抽取中文特定领域的实体属性关系
- DOI:--
- 发表时间:2016
- 期刊:Int. J. Computing Science and Mathematics
- 影响因子:--
- 作者:郭剑毅;周兰江;余正涛;陈玮
- 通讯作者:陈玮
基于源语言句法增强解码的神经机器翻译方法
- DOI:--
- 发表时间:2021
- 期刊:计算机应用
- 影响因子:--
- 作者:龚龙超;郭军军;余正涛
- 通讯作者:余正涛
越南语短语树到依存树的转换研究
- DOI:--
- 发表时间:2016
- 期刊:计算机科学与探索
- 影响因子:--
- 作者:李英;郭剑毅;余正涛;毛存礼;线岩团
- 通讯作者:线岩团
基于标签传播算法的新词情感极性识别
- DOI:--
- 发表时间:2015
- 期刊:计算机科学与探索
- 影响因子:--
- 作者:余正涛;严馨;高盛祥;线岩团
- 通讯作者:线岩团
基于随机游走策略的专家关系网络构建
- DOI:--
- 发表时间:2016
- 期刊:山东大学学报(理学版)
- 影响因子:--
- 作者:余正涛;秦雨;程韵如;庙介璞
- 通讯作者:庙介璞
其他文献
{{
item.title }}
{{ item.translation_title }}
- DOI:{{ item.doi || "--" }}
- 发表时间:{{ item.publish_year || "--"}}
- 期刊:{{ item.journal_name }}
- 影响因子:{{ item.factor || "--" }}
- 作者:{{ item.authors }}
- 通讯作者:{{ item.author }}
内容获取失败,请点击重试
查看分析示例
此项目为已结题,我已根据课题信息分析并撰写以下内容,帮您拓宽课题思路:
AI项目摘要
AI项目思路
AI技术路线图
请为本次AI项目解读的内容对您的实用性打分
非常不实用
非常实用
1
2
3
4
5
6
7
8
9
10
您认为此功能如何分析更能满足您的需求,请填写您的反馈:
余正涛的其他基金
面向小语种的多语言事件分析及态势感知方法研究
- 批准号:
- 批准年份:2021
- 资助金额:267 万元
- 项目类别:联合基金项目
面向资源稀缺型语言的机器翻译理论方法及关键技术研究
- 批准号:61732005
- 批准年份:2017
- 资助金额:295.0 万元
- 项目类别:重点项目
汉越双语事件语料库构建及舆情观点挖掘方法研究
- 批准号:61472168
- 批准年份:2014
- 资助金额:84.0 万元
- 项目类别:面上项目
纳西-汉语双语语料库构建与翻译方法研究
- 批准号:61163022
- 批准年份:2011
- 资助金额:49.0 万元
- 项目类别:地区科学基金项目
专家检索资源获取与学习排序方法研究
- 批准号:61175068
- 批准年份:2011
- 资助金额:57.0 万元
- 项目类别:面上项目
受限域汉语问答系统普适性理论与方法研究
- 批准号:60863011
- 批准年份:2008
- 资助金额:29.0 万元
- 项目类别:地区科学基金项目
受限域汉语问答系统研究
- 批准号:60663004
- 批准年份:2006
- 资助金额:7.0 万元
- 项目类别:地区科学基金项目
相似国自然基金
{{ item.name }}
- 批准号:{{ item.ratify_no }}
- 批准年份:{{ item.approval_year }}
- 资助金额:{{ item.support_num }}
- 项目类别:{{ item.project_type }}
相似海外基金
{{
item.name }}
{{ item.translate_name }}
- 批准号:{{ item.ratify_no }}
- 财政年份:{{ item.approval_year }}
- 资助金额:{{ item.support_num }}
- 项目类别:{{ item.project_type }}