基于深度语义的汉维机器翻译研究

结题报告

项目介绍

AI项目解读

基本信息

批准号：
61662077
项目类别：
地区科学基金项目
资助金额：
41.0万
负责人：
艾山·吾买尔
依托单位：
新疆大学
学科分类：
F0211.信息检索与社会计算
结题年份：
2020
批准年份：
2016
项目状态：
已结题
起止时间：
2017-01-01 至2020-12-31

项目参与者：
赵秋野；郑炅；早克热·卡德尔；热娜古丽·阿布里米提；张金超；王明轩；阿西穆·托合提；阿依图尔荪·喀迪尔；解倩倩；
关键词：
词语表示神经网络的机器翻译命名实体翻译语言模型

项目摘要

China is a unified multi-ethnic country. National language machine translation research to maintain social stability in ethnic minority area of our country and against the secessionist activities, strengthen the communication between different nations, inheritance and development of national culture, minority language information technology development, has very important significance. Uyghur language is one of the most used languages in China. In this project, we focuses on building high performance Chinese Uyghur machine translation system, and carry research on distributed Uyghur word representation, building rich morphological agglutinative language model, neural network based Chinese Uyghur machine translation model, neural network based transliteration model and organization name translation model, study the CFG based Chinese Uyghur organization name translation method and integrating named entity translation method into neural network based machine translation model. we also research on unknown word translation method for neural network based machine translation. The research results and conclusions of this project provide technical reference for the study of Chinese and other rich morphological agglutinative language machine translation system.

我国是一个统一的多民族国家。民族语言机器翻译的研究对维护我国民族地区的社会稳定和反对分裂活动、加强各民族交流、传承并发展民族文化、民族语言信息化技术的发展等都具有极为重要的意义。维吾尔语是我国使用人口最多的几个少数民族语言之一。维吾尔语属阿勒泰语系突厥语族，是一种形态丰富的粘着语言。粘着语言机器翻译建模是机器翻译研究面临的重要科学问题。本课题围绕构建高性能的汉维机器翻译系统技术，对维吾尔语分布式词语表示、形态丰富粘着语言语言模型建模、基于神经网络的汉维机器翻译模型、基于神经网络的汉维音译、机构名翻译模型、基于CFG文法的汉维机构名、名实体翻译与神经网络翻译的融合、神经网络翻译中的未登录词翻译问题等开展研究。本项目的研究成果及结论，对研究汉语与其它形态丰富粘着语言机器翻译系统提供技术参考。

结项摘要

本项目中，针对汉语-维吾尔语机器翻译双语语料库不足、维吾尔语形态丰富、命名实体翻译不理想等问题，申请开展面向形态丰富黏着语言的词语表示建模方法、基于神经网络的维吾尔语语言模型方法研究、基于深度语义表示的汉维机器翻译建模、汉维命名实体翻译方法等研究，拟计划新构建5万条汉语-维吾尔语句对和5000条汉维评测测试集，构建汉维人名、地名、机构名称及行政区划、机构业务等词典资源，试图缓解维吾尔语形态丰富所带来的问题和数据资源不足等问题，力图研发能够使用的维汉、汉维机器翻译系统。. 通过本项目，针对机器翻译中如何切分维吾尔语和其他形态丰富语言开展研究，提出了带标记的音节切分输入方法，在维汉翻译任务上提高2.01个BLEU值，在汉维翻译任务上提高2.82个BLEU值，提出了多种BPE切分标记化混合训练方法，在维汉翻译任务上提高1.77个BLEU值、在汉维翻译任务上提高了0.69个BLEU值。针对神经网络改进与优化，提出了一种新的Linear Associative Units (LAU)来减少递归神经元内部梯度传播路径的发，对汉英翻译的实验表明，适当配置的模型对汉英的翻译效果可以提高11.7 BLEU，在维汉上提升了大约13个BLEU值。针对Teacher-Forcing训练问题的不足，提出了在训练时不仅仅使用true ground label，还会结合oracle word作为上下文的模型，显著提升模型性能，并获得2019年度ACL 最佳论文奖。针对非自回归解码不能利用序列依赖信息的问题，提出了能获取序列信息的网络结构，加速了解码速度。提出了通过查询胶囊网络增强上下文建模能力的模型，显著提升翻译性能。针对低资源翻译模型可能学习语法知识不足问题，提出了融合词性预测任务的Transformer训练模型，显著提高低资源语言的翻译性能。研究与实现了汉语-维吾尔语人名、机构名翻译的神经网络模型、基于神经网络的维吾尔语词干提取、词性标注、命名实体识别模型。本项目实现的英汉维机器翻译引擎投入使用。本项目针对形态丰富语言、低资源语言、翻译模型训练优化、加速解码等方面形成了技术体系，超额完成了资源构建任务。