基于深度语义的汉维机器翻译研究
项目介绍
AI项目解读
基本信息
- 批准号:61662077
- 项目类别:地区科学基金项目
- 资助金额:41.0万
- 负责人:
- 依托单位:
- 学科分类:F0211.信息检索与社会计算
- 结题年份:2020
- 批准年份:2016
- 项目状态:已结题
- 起止时间:2017-01-01 至2020-12-31
- 项目参与者:赵秋野; 郑炅; 早克热·卡德尔; 热娜古丽·阿布里米提; 张金超; 王明轩; 阿西穆·托合提; 阿依图尔荪·喀迪尔; 解倩倩;
- 关键词:
项目摘要
China is a unified multi-ethnic country. National language machine translation research to maintain social stability in ethnic minority area of our country and against the secessionist activities, strengthen the communication between different nations, inheritance and development of national culture, minority language information technology development, has very important significance. Uyghur language is one of the most used languages in China. In this project, we focuses on building high performance Chinese Uyghur machine translation system, and carry research on distributed Uyghur word representation, building rich morphological agglutinative language model, neural network based Chinese Uyghur machine translation model, neural network based transliteration model and organization name translation model, study the CFG based Chinese Uyghur organization name translation method and integrating named entity translation method into neural network based machine translation model. we also research on unknown word translation method for neural network based machine translation. The research results and conclusions of this project provide technical reference for the study of Chinese and other rich morphological agglutinative language machine translation system.
我国是一个统一的多民族国家。民族语言机器翻译的研究对维护我国民族地区的社会稳定和反对分裂活动、加强各民族交流、传承并发展民族文化、民族语言信息化技术的发展等都具有极为重要的意义。维吾尔语是我国使用人口最多的几个少数民族语言之一。维吾尔语属阿勒泰语系突厥语族,是一种形态丰富的粘着语言。粘着语言机器翻译建模是机器翻译研究面临的重要科学问题。本课题围绕构建高性能的汉维机器翻译系统技术,对维吾尔语分布式词语表示、形态丰富粘着语言语言模型建模、基于神经网络的汉维机器翻译模型、基于神经网络的汉维音译、机构名翻译模型、基于CFG文法的汉维机构名、名实体翻译与神经网络翻译的融合、神经网络翻译中的未登录词翻译问题等开展研究。本项目的研究成果及结论,对研究汉语与其它形态丰富粘着语言机器翻译系统提供技术参考。
结项摘要
本项目中,针对汉语-维吾尔语机器翻译双语语料库不足、维吾尔语形态丰富、命名实体翻译不理想等问题,申请开展面向形态丰富黏着语言的词语表示建模方法、基于神经网络的维吾尔语语言模型方法研究、基于深度语义表示的汉维机器翻译建模、汉维命名实体翻译方法等研究,拟计划新构建5万条汉语-维吾尔语句对和5000条汉维评测测试集,构建汉维人名、地名、机构名称及行政区划、机构业务等词典资源,试图缓解维吾尔语形态丰富所带来的问题和数据资源不足等问题,力图研发能够使用的维汉、汉维机器翻译系统。. 通过本项目,针对机器翻译中如何切分维吾尔语和其他形态丰富语言开展研究,提出了带标记的音节切分输入方法,在维汉翻译任务上提高2.01个BLEU值,在汉维翻译任务上提高2.82个BLEU值,提出了多种BPE切分标记化混合训练方法,在维汉翻译任务上提高1.77个BLEU值、在汉维翻译任务上提高了0.69个BLEU值。针对神经网络改进与优化,提出了一种新的Linear Associative Units (LAU)来减少递归神经元内部梯度传播路径的发,对汉英翻译的实验表明,适当配置的模型对汉英的翻译效果可以提高11.7 BLEU,在维汉上提升了大约13个BLEU值。针对Teacher-Forcing训练问题的不足,提出了在训练时不仅仅使用true ground label,还会结合oracle word作为上下文的模型,显著提升模型性能,并获得2019年度ACL 最佳论文奖。针对非自回归解码不能利用序列依赖信息的问题,提出了能获取序列信息的网络结构,加速了解码速度。提出了通过查询胶囊网络增强上下文建模能力的模型,显著提升翻译性能。针对低资源翻译模型可能学习语法知识不足问题,提出了融合词性预测任务的Transformer训练模型,显著提高低资源语言的翻译性能。研究与实现了汉语-维吾尔语人名、机构名翻译的神经网络模型、基于神经网络的维吾尔语词干提取、词性标注、命名实体识别模型。本项目实现的英汉维机器翻译引擎投入使用。本项目针对形态丰富语言、低资源语言、翻译模型训练优化、加速解码等方面形成了技术体系,超额完成了资源构建任务。
项目成果
期刊论文数量(27)
专著数量(0)
科研奖励数量(0)
会议论文数量(6)
专利数量(5)
Semi-Automatic Corpus Expansion and Extraction of Uyghur-Named Entities and Relations Based on a Hybrid Method
基于混合方法的维吾尔命名实体和关系的半自动语料库扩展和提取
- DOI:10.3390/info11010031
- 发表时间:2020-01
- 期刊:Information
- 影响因子:3.1
- 作者:Ayiguli Halike;Kahaerjiang Abiderexiti;Tuergen Yibulayin
- 通讯作者:Tuergen Yibulayin
融合词性特征的中文句子相似度计算方法
- DOI:--
- 发表时间:2020
- 期刊:计算机工程与设计
- 影响因子:--
- 作者:吴浩;艾山·吾买尔;卡哈尔江·阿比的热西提;王路路;吐尔根·依布拉音
- 通讯作者:吐尔根·依布拉音
基于Django 的汉维人名在线翻译系统
- DOI:--
- 发表时间:2020
- 期刊:现代计算机
- 影响因子:--
- 作者:西热艾力·海热拉;艾山·吾买尔;王路路
- 通讯作者:王路路
基于CRF和半监督学习的维吾尔文命名实体识别
- DOI:--
- 发表时间:2018
- 期刊:中文信息学报
- 影响因子:--
- 作者:王路路;艾山·吾买尔;买合木提·买买提;卡哈尔江·阿比的热西提;吐尔根·依布拉音
- 通讯作者:吐尔根·依布拉音
利用单语数据改进神经机器翻译压缩模型的翻译质量
- DOI:--
- 发表时间:2019
- 期刊:中文信息学报
- 影响因子:--
- 作者:李响;刘洋;陈伟;刘群
- 通讯作者:刘群
数据更新时间:{{ journalArticles.updateTime }}
{{
item.title }}
{{ item.translation_title }}
- DOI:{{ item.doi || "--"}}
- 发表时间:{{ item.publish_year || "--" }}
- 期刊:{{ item.journal_name }}
- 影响因子:{{ item.factor || "--"}}
- 作者:{{ item.authors }}
- 通讯作者:{{ item.author }}
数据更新时间:{{ journalArticles.updateTime }}
{{ item.title }}
- 作者:{{ item.authors }}
数据更新时间:{{ monograph.updateTime }}
{{ item.title }}
- 作者:{{ item.authors }}
数据更新时间:{{ sciAawards.updateTime }}
{{ item.title }}
- 作者:{{ item.authors }}
数据更新时间:{{ conferencePapers.updateTime }}
{{ item.title }}
- 作者:{{ item.authors }}
数据更新时间:{{ patent.updateTime }}
其他文献
基于众包的维吾尔语事件标注研究
- DOI:--
- 发表时间:2015
- 期刊:新疆大学学报(自然科学版)
- 影响因子:--
- 作者:陈昊;吐尔根·依布拉音;卡哈尔江·阿比的热西提;艾山·吾买尔
- 通讯作者:艾山·吾买尔
基于机器学习的维吾尔文文本分类研究
- DOI:--
- 发表时间:2012
- 期刊:计算机工程与应用
- 影响因子:--
- 作者:阿力木江·艾沙;吐尔根·依布拉音;艾山·吾买尔;马尔哈巴·艾力
- 通讯作者:马尔哈巴·艾力
基于类别分布差异和特征熵的维吾尔语文本特征选择
- DOI:--
- 发表时间:2013
- 期刊:计算机应用研究
- 影响因子:--
- 作者:阿力木江·艾沙;吐尔根·依布拉音;库尔班·吾布力;瓦依提·阿不力孜;艾山·吾买尔
- 通讯作者:艾山·吾买尔
基于统计和规则混合策略的维吾尔人名识别研究
- DOI:--
- 发表时间:2014
- 期刊:新疆大学学报(自然科学版)
- 影响因子:--
- 作者:加日拉·买买提热衣木;吐尔根·依布拉音;艾山·吾买尔
- 通讯作者:艾山·吾买尔
维吾尔语-汉语量词短语的神经机器翻译
- DOI:--
- 发表时间:2019
- 期刊:计算机工程与设计
- 影响因子:--
- 作者:阿依古丽·哈力克;卡哈尔江·阿比的热西提;艾山·吾买尔;吐尔根·依布拉音
- 通讯作者:吐尔根·依布拉音
其他文献
{{
item.title }}
{{ item.translation_title }}
- DOI:{{ item.doi || "--" }}
- 发表时间:{{ item.publish_year || "--"}}
- 期刊:{{ item.journal_name }}
- 影响因子:{{ item.factor || "--" }}
- 作者:{{ item.authors }}
- 通讯作者:{{ item.author }}
内容获取失败,请点击重试
查看分析示例
此项目为已结题,我已根据课题信息分析并撰写以下内容,帮您拓宽课题思路:
AI项目摘要
AI项目思路
AI技术路线图
请为本次AI项目解读的内容对您的实用性打分
非常不实用
非常实用
1
2
3
4
5
6
7
8
9
10
您认为此功能如何分析更能满足您的需求,请填写您的反馈:
艾山·吾买尔的其他基金
中亚地区低资源形态丰富黏着语言的神经机器翻译研究
- 批准号:62166044
- 批准年份:2021
- 资助金额:35 万元
- 项目类别:地区科学基金项目
维吾尔文命名实体识别关键技术研究
- 批准号:61262060
- 批准年份:2012
- 资助金额:45.0 万元
- 项目类别:地区科学基金项目
现代维吾尔语句法分析关键技术的研究
- 批准号:60963018
- 批准年份:2009
- 资助金额:21.0 万元
- 项目类别:地区科学基金项目
相似国自然基金
{{ item.name }}
- 批准号:{{ item.ratify_no }}
- 批准年份:{{ item.approval_year }}
- 资助金额:{{ item.support_num }}
- 项目类别:{{ item.project_type }}
相似海外基金
{{
item.name }}
{{ item.translate_name }}
- 批准号:{{ item.ratify_no }}
- 财政年份:{{ item.approval_year }}
- 资助金额:{{ item.support_num }}
- 项目类别:{{ item.project_type }}