基于枢轴语言的汉越句法统计翻译方法研究

结题报告
项目介绍
AI项目解读

基本信息

  • 批准号:
    61672271
  • 项目类别:
    面上项目
  • 资助金额:
    61.0万
  • 负责人:
  • 依托单位:
  • 学科分类:
    F0211.信息检索与社会计算
  • 结题年份:
    2020
  • 批准年份:
    2016
  • 项目状态:
    已结题
  • 起止时间:
    2017-01-01 至2020-12-31

项目摘要

Under the background of the national strategy of “the Belt and Road”, Chinese-Vietnamese bilingual machine translation plays an important role in promoting bilateral communications and exchanges in all fields such as politics, economy and culture. This project, aiming at the facts that there are dramatic grammatical differences between Chinese and Vietnamese and that the bilingual corpus are very few, will do its research on Chinese-Vietnamese tree-to-tree syntactic statistical machine translation oriented bilingual language differences and the research on Chinese-Vietnamese syntactic statistical machine translation based on pivot language (here using English). Firstly, we plan to analyze the language differences between Chinese and Vietnamese, to fuse their language features into learning and decoding process of the tree-to-tree translation model, and to propose a tree-to-tree syntax machine translation method which will fit the feature of Chinese and Vietnamese well. Secondly, aiming at the lack of Chinese-Vietnamese corpus, we plan to propose a Chinese-Vietnamese phrase machine translation using English as pivot language, in which we extract a large-scale Chinese-Vietnamese phrase translation rules table with probability based on the pivot language. And then, we will analyze the alignment between Chinese-English phrase-structure tree and English-Vietnamese phrase-structure tree, so that we will propose a Chinese-Vietnamese tree-to-tree machine translation based on pivot language (English), in which we can obtain a certain-scale Chinese-Vietnamese phrase-structure tree translation rules by using large-scale corpus of Chinese-English and English-Vietnamese. At last, to take full advantages of all the different methods aforementioned, we plan to explore the fusion method of the Chinese-Vietnamese tree-to-tree translation method, the Chinese-Vietnamese phrase translation method based on pivot language, and the Chinese-Vietnamese tree-to-tree translation method based on pivot language, which can solve the difficult problems in Chinese-Vietnamese machine translation, such as the grammatical difference and the corpus being poor, and has a very important value to Chinese-Vietnamese machine translation in both theoretical and practical aspect.
在国家一带一路战略背景下,汉越双语机器翻译对推动两国在政治、经济、文化等方面交流有非常重要的作用。课题将针对汉语与越南语语法差异大、语料稀缺特点,开展面向汉越语言差异的树到树句法统计翻译及基于枢轴语言(英语)的句法统计翻译方法研究。首先,分析汉越语言差异特性,将语言特点融合到树到树学习与解码过程中,提出适合汉越语言特性的树到树句法翻译方法;其次,针对汉越语料稀缺问题,提出以英语为枢轴语言的汉越短语翻译方法,基于枢轴语言提取大规模概率化汉越短语翻译规则表;然后,分析汉英、英越短语句法树对应关系,提出基于枢轴语言(英语)的汉越树到树翻译方法,利用大规模枢轴语言(英语)获得具有一定规模的汉越短语树句法翻译规则;最后,针对不同翻译方法的优缺点,提出汉越树到树翻译、枢轴短语翻译及枢轴树到树翻译的融合方法,解决汉越双语翻译面临的语言差异及语料稀缺等难点问题,对汉越翻译有着非常重要的理论与实际应用价值。

结项摘要

基于枢轴语言的机器翻译是解决低资源机器翻译的主要手段之一,项目围绕汉-越双语词典构建、汉-越双语平行语料库构建、汉-越句法统计机器翻译、枢轴语言机器翻译等关键难点问题进行研究与探讨,在以下6个方面取得了进展:1.汉-越双语词典构建方面,提出基于英语枢轴的弱监督汉-越双语词典构建方法,利用枢轴语料抽取17万汉-越双语词典。2.在汉-越双语平行语料库构建方面,提出基于枢轴语言的汉-越伪平行语料生成方法及融合句法结构及Tree-LSTM的汉-越平行句对抽取方法,利用枢轴回译及枢轴抽取的方式生成了近400万汉-越双语平行语料。3.在基于短语的汉-越机器翻译方面,提出融合语言位置特征的汉-越机器翻译方法,利用词汇化调序模型对符合语言特性的规则进行权重调优,得到更符合语法规则的译文;提出基于记忆网络融合词汇翻译概率的汉-越机器翻译方法,将统计机器翻译中词汇翻译概率融入神经机器翻译模型,提升了汉越神经机器翻译的性能。4.在基于句法的汉-越机器翻译方法方面,提出融合语言差异特点的汉-越树到树统计机器翻译方法,将语言差异特征融入句法统计机器翻译中,提出融合句法解析树的汉-越神经机器翻译方法,将句法信息融入神经机器翻译模型的编码过程,均有效提升了翻译质量。5.在基于枢轴的汉-越机器翻译方面,提出基于迁移学习的汉-越神经机器翻译方法,实现英-汉、英-越翻译模型到汉-越翻译模型之间的知识迁移,提出基于枢轴的汉-越联合训练神经机器翻译方法,借助英-汉、英-越翻译模型提升汉-越机器翻译模型的性能。6.研发了汉-越机器翻译系统,实现汉语-越南语之间的双向翻译,系统在网信、国安、军方等多个领域得到应用。发表论文21篇,其中SCI收录3篇,EI收录4篇,授权国家发明专利3项,受理国家发明专利17项。承办CCFAI2017,CCL2019等国内该领域的学术会议,参加国际国内学术会议61人次。获得国务院特殊津贴1人,获得省级人才6人次,培养硕士19人、博士1人,获得3篇省级优秀硕士论文。

项目成果

期刊论文数量(16)
专著数量(0)
科研奖励数量(0)
会议论文数量(5)
专利数量(20)
Phrase-based Chinese-Vietnamese pseudo-parallel sentence pair generation
基于短语的汉越伪平行句对生成
  • DOI:
    10.1103/physrevapplied.9.014016
  • 发表时间:
    2019
  • 期刊:
    Machine Translation
  • 影响因子:
    1.9
  • 作者:
    翟家欣;余正涛;高盛祥;王振晗;普浏清
  • 通讯作者:
    普浏清
Syntax-Based Chinese-Vietnamese Tree-to-Tree Statistical Machine Translation with Bilingual Features
基于句法的具有双语特征的汉越树到树统计机器翻译
  • DOI:
    10.1145/3314938
  • 发表时间:
    2019
  • 期刊:
    ACM Transactions on Asian and Low-Resource Language Information Processing
  • 影响因子:
    2
  • 作者:
    Shengxiang Gao;Jihao Huang;Mingya Xue;Zhengtao Yu;Zhuo Wang;Yang Zhang
  • 通讯作者:
    Yang Zhang
基于迁移学习的汉越神经机器翻译
  • DOI:
    --
  • 发表时间:
    2019
  • 期刊:
    厦门大学学报(自然科学版)
  • 影响因子:
    --
  • 作者:
    黄继豪;余正涛;于志强;文永华
  • 通讯作者:
    文永华
融合句法解析树的汉-越卷积神经机器翻译
  • DOI:
    10.13328/j.cnki.jos.005889
  • 发表时间:
    2020
  • 期刊:
    软件学报
  • 影响因子:
    --
  • 作者:
    王振晗;何建雅琳;余正涛;文永华;郭军军;高盛祥
  • 通讯作者:
    高盛祥
基于枢轴语言的汉越神经机器翻译伪平行语料库构建
  • DOI:
    --
  • 发表时间:
    2020
  • 期刊:
    计算机工程与科学
  • 影响因子:
    --
  • 作者:
    贾承勋;赖华;余正涛;文永华;于志强
  • 通讯作者:
    于志强

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi || "--"}}
  • 发表时间:
    {{ item.publish_year || "--" }}
  • 期刊:
    {{ item.journal_name }}
  • 影响因子:
    {{ item.factor || "--"}}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.authors }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.authors }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.authors }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.authors }}

数据更新时间:{{ patent.updateTime }}

其他文献

用深度可信网抽取中文特定领域的实体属性关系
  • DOI:
    --
  • 发表时间:
    2016
  • 期刊:
    Int. J. Computing Science and Mathematics
  • 影响因子:
    --
  • 作者:
    郭剑毅;周兰江;余正涛;陈玮
  • 通讯作者:
    陈玮
基于源语言句法增强解码的神经机器翻译方法
  • DOI:
    --
  • 发表时间:
    2021
  • 期刊:
    计算机应用
  • 影响因子:
    --
  • 作者:
    龚龙超;郭军军;余正涛
  • 通讯作者:
    余正涛
越南语短语树到依存树的转换研究
  • DOI:
    --
  • 发表时间:
    2016
  • 期刊:
    计算机科学与探索
  • 影响因子:
    --
  • 作者:
    李英;郭剑毅;余正涛;毛存礼;线岩团
  • 通讯作者:
    线岩团
基于标签传播算法的新词情感极性识别
  • DOI:
    --
  • 发表时间:
    2015
  • 期刊:
    计算机科学与探索
  • 影响因子:
    --
  • 作者:
    余正涛;严馨;高盛祥;线岩团
  • 通讯作者:
    线岩团
基于随机游走策略的专家关系网络构建
  • DOI:
    --
  • 发表时间:
    2016
  • 期刊:
    山东大学学报(理学版)
  • 影响因子:
    --
  • 作者:
    余正涛;秦雨;程韵如;庙介璞
  • 通讯作者:
    庙介璞

其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi || "--" }}
  • 发表时间:
    {{ item.publish_year || "--"}}
  • 期刊:
    {{ item.journal_name }}
  • 影响因子:
    {{ item.factor || "--" }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}
empty
内容获取失败,请点击重试
重试联系客服
title开始分析
查看分析示例
此项目为已结题,我已根据课题信息分析并撰写以下内容,帮您拓宽课题思路:

AI项目思路

AI技术路线图

余正涛的其他基金

面向小语种的多语言事件分析及态势感知方法研究
  • 批准号:
  • 批准年份:
    2021
  • 资助金额:
    267 万元
  • 项目类别:
    联合基金项目
面向资源稀缺型语言的机器翻译理论方法及关键技术研究
  • 批准号:
    61732005
  • 批准年份:
    2017
  • 资助金额:
    295.0 万元
  • 项目类别:
    重点项目
汉越双语事件语料库构建及舆情观点挖掘方法研究
  • 批准号:
    61472168
  • 批准年份:
    2014
  • 资助金额:
    84.0 万元
  • 项目类别:
    面上项目
纳西-汉语双语语料库构建与翻译方法研究
  • 批准号:
    61163022
  • 批准年份:
    2011
  • 资助金额:
    49.0 万元
  • 项目类别:
    地区科学基金项目
专家检索资源获取与学习排序方法研究
  • 批准号:
    61175068
  • 批准年份:
    2011
  • 资助金额:
    57.0 万元
  • 项目类别:
    面上项目
受限域汉语问答系统普适性理论与方法研究
  • 批准号:
    60863011
  • 批准年份:
    2008
  • 资助金额:
    29.0 万元
  • 项目类别:
    地区科学基金项目
受限域汉语问答系统研究
  • 批准号:
    60663004
  • 批准年份:
    2006
  • 资助金额:
    7.0 万元
  • 项目类别:
    地区科学基金项目

相似国自然基金

{{ item.name }}
  • 批准号:
    {{ item.ratify_no }}
  • 批准年份:
    {{ item.approval_year }}
  • 资助金额:
    {{ item.support_num }}
  • 项目类别:
    {{ item.project_type }}

相似海外基金

{{ item.name }}
{{ item.translate_name }}
  • 批准号:
    {{ item.ratify_no }}
  • 财政年份:
    {{ item.approval_year }}
  • 资助金额:
    {{ item.support_num }}
  • 项目类别:
    {{ item.project_type }}
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了

AI项目解读示例

课题项目:调控A型流感病毒诱导IFN-β表达的机制研究

AI项目摘要:

本研究聚焦于TRIM2蛋白在A型流感病毒诱导的IFN-β表达中的调控机制。A型流感病毒是全球性健康问题,其感染可导致严重的呼吸道疾病。IFN-β作为关键的抗病毒因子,其表达水平对抗病毒防御至关重要。然而,TRIM2如何调控IFN-β的表达尚未明确。本研究假设TRIM2通过与病毒RNA或宿主因子相互作用,影响IFN-β的产生。我们将采用分子生物学、细胞生物学和免疫学方法,探索TRIM2与A型流感病毒诱导IFN-β表达的关系。预期结果将揭示TRIM2在抗病毒免疫反应中的作用,为开发新的抗病毒策略提供理论基础。该研究对理解宿主抗病毒机制具有重要科学意义,并可能对临床治疗流感病毒感染提供新的视角。

AI项目思路:

科学问题:TRIM2如何调控A型流感病毒诱导的IFN-β表达?
前期研究:已有研究表明TRIM2参与抗病毒反应,但其具体机制尚不明确。
研究创新点:本研究将深入探讨TRIM2在IFN-β表达中的直接作用机制。
技术路线:包括病毒学、分子生物学、细胞培养和免疫检测技术。
关键技术:TRIM2与病毒RNA的相互作用分析,IFN-β启动子活性检测。
实验模型:使用A型流感病毒感染的细胞模型进行研究。

AI技术路线图

        graph TD
          A[研究起始] --> B[文献回顾与假设提出]
          B --> C[实验设计与方法学准备]
          C --> D[A型流感病毒感染模型建立]
          D --> E[TRIM2与病毒RNA相互作用分析]
          E --> F[TRIM2对IFN-β启动子活性的影响]
          F --> G[IFN-β表达水平测定]
          G --> H[TRIM2功能丧失与获得研究]
          H --> I[数据收集与分析]
          I --> J[结果解释与科学验证]
          J --> K[研究结论与未来方向]
          K --> L[研究结束]
      
关闭
close
客服二维码