基于深度语义的汉维机器翻译研究

结题报告
项目介绍
AI项目解读

基本信息

  • 批准号:
    61662077
  • 项目类别:
    地区科学基金项目
  • 资助金额:
    41.0万
  • 负责人:
  • 依托单位:
  • 学科分类:
    F0211.信息检索与社会计算
  • 结题年份:
    2020
  • 批准年份:
    2016
  • 项目状态:
    已结题
  • 起止时间:
    2017-01-01 至2020-12-31

项目摘要

China is a unified multi-ethnic country. National language machine translation research to maintain social stability in ethnic minority area of our country and against the secessionist activities, strengthen the communication between different nations, inheritance and development of national culture, minority language information technology development, has very important significance. Uyghur language is one of the most used languages in China. In this project, we focuses on building high performance Chinese Uyghur machine translation system, and carry research on distributed Uyghur word representation, building rich morphological agglutinative language model, neural network based Chinese Uyghur machine translation model, neural network based transliteration model and organization name translation model, study the CFG based Chinese Uyghur organization name translation method and integrating named entity translation method into neural network based machine translation model. we also research on unknown word translation method for neural network based machine translation. The research results and conclusions of this project provide technical reference for the study of Chinese and other rich morphological agglutinative language machine translation system.
我国是一个统一的多民族国家。民族语言机器翻译的研究对维护我国民族地区的社会稳定和反对分裂活动、加强各民族交流、传承并发展民族文化、民族语言信息化技术的发展等都具有极为重要的意义。维吾尔语是我国使用人口最多的几个少数民族语言之一。维吾尔语属阿勒泰语系突厥语族,是一种形态丰富的粘着语言。粘着语言机器翻译建模是机器翻译研究面临的重要科学问题。本课题围绕构建高性能的汉维机器翻译系统技术,对维吾尔语分布式词语表示、形态丰富粘着语言语言模型建模、基于神经网络的汉维机器翻译模型、基于神经网络的汉维音译、机构名翻译模型、基于CFG文法的汉维机构名、名实体翻译与神经网络翻译的融合、神经网络翻译中的未登录词翻译问题等开展研究。本项目的研究成果及结论,对研究汉语与其它形态丰富粘着语言机器翻译系统提供技术参考。

结项摘要

本项目中,针对汉语-维吾尔语机器翻译双语语料库不足、维吾尔语形态丰富、命名实体翻译不理想等问题,申请开展面向形态丰富黏着语言的词语表示建模方法、基于神经网络的维吾尔语语言模型方法研究、基于深度语义表示的汉维机器翻译建模、汉维命名实体翻译方法等研究,拟计划新构建5万条汉语-维吾尔语句对和5000条汉维评测测试集,构建汉维人名、地名、机构名称及行政区划、机构业务等词典资源,试图缓解维吾尔语形态丰富所带来的问题和数据资源不足等问题,力图研发能够使用的维汉、汉维机器翻译系统。. 通过本项目,针对机器翻译中如何切分维吾尔语和其他形态丰富语言开展研究,提出了带标记的音节切分输入方法,在维汉翻译任务上提高2.01个BLEU值,在汉维翻译任务上提高2.82个BLEU值,提出了多种BPE切分标记化混合训练方法,在维汉翻译任务上提高1.77个BLEU值、在汉维翻译任务上提高了0.69个BLEU值。针对神经网络改进与优化,提出了一种新的Linear Associative Units (LAU)来减少递归神经元内部梯度传播路径的发,对汉英翻译的实验表明,适当配置的模型对汉英的翻译效果可以提高11.7 BLEU,在维汉上提升了大约13个BLEU值。针对Teacher-Forcing训练问题的不足,提出了在训练时不仅仅使用true ground label,还会结合oracle word作为上下文的模型,显著提升模型性能,并获得2019年度ACL 最佳论文奖。针对非自回归解码不能利用序列依赖信息的问题,提出了能获取序列信息的网络结构,加速了解码速度。提出了通过查询胶囊网络增强上下文建模能力的模型,显著提升翻译性能。针对低资源翻译模型可能学习语法知识不足问题,提出了融合词性预测任务的Transformer训练模型,显著提高低资源语言的翻译性能。研究与实现了汉语-维吾尔语人名、机构名翻译的神经网络模型、基于神经网络的维吾尔语词干提取、词性标注、命名实体识别模型。本项目实现的英汉维机器翻译引擎投入使用。本项目针对形态丰富语言、低资源语言、翻译模型训练优化、加速解码等方面形成了技术体系,超额完成了资源构建任务。

项目成果

期刊论文数量(27)
专著数量(0)
科研奖励数量(0)
会议论文数量(6)
专利数量(5)
Semi-Automatic Corpus Expansion and Extraction of Uyghur-Named Entities and Relations Based on a Hybrid Method
基于混合方法的维吾尔命名实体和关系的半自动语料库扩展和提取
  • DOI:
    10.3390/info11010031
  • 发表时间:
    2020-01
  • 期刊:
    Information
  • 影响因子:
    3.1
  • 作者:
    Ayiguli Halike;Kahaerjiang Abiderexiti;Tuergen Yibulayin
  • 通讯作者:
    Tuergen Yibulayin
融合词性特征的中文句子相似度计算方法
  • DOI:
    --
  • 发表时间:
    2020
  • 期刊:
    计算机工程与设计
  • 影响因子:
    --
  • 作者:
    吴浩;艾山·吾买尔;卡哈尔江·阿比的热西提;王路路;吐尔根·依布拉音
  • 通讯作者:
    吐尔根·依布拉音
基于Django 的汉维人名在线翻译系统
  • DOI:
    --
  • 发表时间:
    2020
  • 期刊:
    现代计算机
  • 影响因子:
    --
  • 作者:
    西热艾力·海热拉;艾山·吾买尔;王路路
  • 通讯作者:
    王路路
基于CRF和半监督学习的维吾尔文命名实体识别
  • DOI:
    --
  • 发表时间:
    2018
  • 期刊:
    中文信息学报
  • 影响因子:
    --
  • 作者:
    王路路;艾山·吾买尔;买合木提·买买提;卡哈尔江·阿比的热西提;吐尔根·依布拉音
  • 通讯作者:
    吐尔根·依布拉音
利用单语数据改进神经机器翻译压缩模型的翻译质量
  • DOI:
    --
  • 发表时间:
    2019
  • 期刊:
    中文信息学报
  • 影响因子:
    --
  • 作者:
    李响;刘洋;陈伟;刘群
  • 通讯作者:
    刘群

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi || "--"}}
  • 发表时间:
    {{ item.publish_year || "--" }}
  • 期刊:
    {{ item.journal_name }}
  • 影响因子:
    {{ item.factor || "--"}}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.authors }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.authors }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.authors }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.authors }}

数据更新时间:{{ patent.updateTime }}

其他文献

基于众包的维吾尔语事件标注研究
  • DOI:
    --
  • 发表时间:
    2015
  • 期刊:
    新疆大学学报(自然科学版)
  • 影响因子:
    --
  • 作者:
    陈昊;吐尔根·依布拉音;卡哈尔江·阿比的热西提;艾山·吾买尔
  • 通讯作者:
    艾山·吾买尔
基于机器学习的维吾尔文文本分类研究
  • DOI:
    --
  • 发表时间:
    2012
  • 期刊:
    计算机工程与应用
  • 影响因子:
    --
  • 作者:
    阿力木江·艾沙;吐尔根·依布拉音;艾山·吾买尔;马尔哈巴·艾力
  • 通讯作者:
    马尔哈巴·艾力
基于类别分布差异和特征熵的维吾尔语文本特征选择
  • DOI:
    --
  • 发表时间:
    2013
  • 期刊:
    计算机应用研究
  • 影响因子:
    --
  • 作者:
    阿力木江·艾沙;吐尔根·依布拉音;库尔班·吾布力;瓦依提·阿不力孜;艾山·吾买尔
  • 通讯作者:
    艾山·吾买尔
基于统计和规则混合策略的维吾尔人名识别研究
  • DOI:
    --
  • 发表时间:
    2014
  • 期刊:
    新疆大学学报(自然科学版)
  • 影响因子:
    --
  • 作者:
    加日拉·买买提热衣木;吐尔根·依布拉音;艾山·吾买尔
  • 通讯作者:
    艾山·吾买尔
维吾尔语-汉语量词短语的神经机器翻译
  • DOI:
    --
  • 发表时间:
    2019
  • 期刊:
    计算机工程与设计
  • 影响因子:
    --
  • 作者:
    阿依古丽·哈力克;卡哈尔江·阿比的热西提;艾山·吾买尔;吐尔根·依布拉音
  • 通讯作者:
    吐尔根·依布拉音

其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi || "--" }}
  • 发表时间:
    {{ item.publish_year || "--"}}
  • 期刊:
    {{ item.journal_name }}
  • 影响因子:
    {{ item.factor || "--" }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}
empty
内容获取失败,请点击重试
重试联系客服
title开始分析
查看分析示例
此项目为已结题,我已根据课题信息分析并撰写以下内容,帮您拓宽课题思路:

AI项目思路

AI技术路线图

艾山·吾买尔的其他基金

中亚地区低资源形态丰富黏着语言的神经机器翻译研究
  • 批准号:
    62166044
  • 批准年份:
    2021
  • 资助金额:
    35 万元
  • 项目类别:
    地区科学基金项目
维吾尔文命名实体识别关键技术研究
  • 批准号:
    61262060
  • 批准年份:
    2012
  • 资助金额:
    45.0 万元
  • 项目类别:
    地区科学基金项目
现代维吾尔语句法分析关键技术的研究
  • 批准号:
    60963018
  • 批准年份:
    2009
  • 资助金额:
    21.0 万元
  • 项目类别:
    地区科学基金项目

相似国自然基金

{{ item.name }}
  • 批准号:
    {{ item.ratify_no }}
  • 批准年份:
    {{ item.approval_year }}
  • 资助金额:
    {{ item.support_num }}
  • 项目类别:
    {{ item.project_type }}

相似海外基金

{{ item.name }}
{{ item.translate_name }}
  • 批准号:
    {{ item.ratify_no }}
  • 财政年份:
    {{ item.approval_year }}
  • 资助金额:
    {{ item.support_num }}
  • 项目类别:
    {{ item.project_type }}
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了

AI项目解读示例

课题项目:调控A型流感病毒诱导IFN-β表达的机制研究

AI项目摘要:

本研究聚焦于TRIM2蛋白在A型流感病毒诱导的IFN-β表达中的调控机制。A型流感病毒是全球性健康问题,其感染可导致严重的呼吸道疾病。IFN-β作为关键的抗病毒因子,其表达水平对抗病毒防御至关重要。然而,TRIM2如何调控IFN-β的表达尚未明确。本研究假设TRIM2通过与病毒RNA或宿主因子相互作用,影响IFN-β的产生。我们将采用分子生物学、细胞生物学和免疫学方法,探索TRIM2与A型流感病毒诱导IFN-β表达的关系。预期结果将揭示TRIM2在抗病毒免疫反应中的作用,为开发新的抗病毒策略提供理论基础。该研究对理解宿主抗病毒机制具有重要科学意义,并可能对临床治疗流感病毒感染提供新的视角。

AI项目思路:

科学问题:TRIM2如何调控A型流感病毒诱导的IFN-β表达?
前期研究:已有研究表明TRIM2参与抗病毒反应,但其具体机制尚不明确。
研究创新点:本研究将深入探讨TRIM2在IFN-β表达中的直接作用机制。
技术路线:包括病毒学、分子生物学、细胞培养和免疫检测技术。
关键技术:TRIM2与病毒RNA的相互作用分析,IFN-β启动子活性检测。
实验模型:使用A型流感病毒感染的细胞模型进行研究。

AI技术路线图

        graph TD
          A[研究起始] --> B[文献回顾与假设提出]
          B --> C[实验设计与方法学准备]
          C --> D[A型流感病毒感染模型建立]
          D --> E[TRIM2与病毒RNA相互作用分析]
          E --> F[TRIM2对IFN-β启动子活性的影响]
          F --> G[IFN-β表达水平测定]
          G --> H[TRIM2功能丧失与获得研究]
          H --> I[数据收集与分析]
          I --> J[结果解释与科学验证]
          J --> K[研究结论与未来方向]
          K --> L[研究结束]
      
关闭
close
客服二维码