基于潜在语义对偶空间的新词翻译自动识别方法研究

结题报告
项目介绍
AI项目解读

基本信息

  • 批准号:
    61462045
  • 项目类别:
    地区科学基金项目
  • 资助金额:
    45.0万
  • 负责人:
  • 依托单位:
  • 学科分类:
    F0211.信息检索与社会计算
  • 结题年份:
    2018
  • 批准年份:
    2014
  • 项目状态:
    已结题
  • 起止时间:
    2015-01-01 至2018-12-31

项目摘要

It is inevitable that the new words continuously emerge in cross-language communication in the era of globalization. Automatic identification and translation of new words, new meaning and new translation of the old words in statistical machine translation bring challenges to machine translation system. They also have great effect on performance of multilingual information processing. How to automatically detecting new words, disambiguate new meaning and new translation of new words is key to improve machine translation system performance. Based on bilingual latent semantic dual space proposed in National Natural Science Foundation of China project that we completed, the project focuses on translating new word in online multilingual text. The new word is defined as the emerging word or the old word is endowed with the new meaning. Unlike the traditional method of statistical machine translation, we will utilize the theories of subspace analysis and latent semantic analysis, model the bilingual latent semantic correspondence in bilingual parallel corpus and build latent semantic dual space. In the space, we will design automatic recognition algorithms of new word translation and identification algorithm of out-of-vocabulary. After matching the translation of new words and identifying the out-of-vocabulary, we will construct dictionary for new words with translation probability and update the probabilities of old word. Then we will refine terms translation probabilities. Furthermore, the new models and methods are proved in theory and verified in experiment, also become new ideas and theoretical basis for statistical machine translation.
在全球化时代的跨语言交流中,新词的出现已经成为语言处理研究领域不可避免的语言现象。在统计机器翻译中,新词自动识别、新词翻译、旧词新义和旧词新译给机器翻译系统带来了挑战,也很大程度上影响其多语言信息处理性能。如何自动识别新词,并有效消除旧词新义、旧词新译带来的歧义成为提高机器翻译系统性能的关键。本项目主要以我们已完成的国家自然科学基金项目中提出的双语潜在语义对偶空间的研究工作为基础,重点研究分析在线多语言文本中的新词(即新出现词语和赋以新义的原有词语)翻译问题,区别于传统的统计机器翻译方法,拟运用主流的子空间分析和潜在语义分析等理论,建立双语平行语料库中的双语潜在语义对应关系,构造潜在语义对偶空间;研究自动识别新词翻译的算法和未登录词识别算法;建立新词概率词典和更新已有词翻译概率,修正词汇化翻译概率;在理论上证明和实验中验证新模型和方法的有效性,为统计机器翻译研究提供一种新思路和理论依据。

结项摘要

在机器翻译中,新词自动识别、新词翻译、旧词新义和旧词新译给机器翻译系统带来了挑战。如何自动识别新词,并有效消除旧词新义、旧词新译带来的歧义成为提高机器翻译系统性能的关键。本项目主要运用主流的子空间分析理论和最新的深度学习理论,重点研究了多语言文本中的新词翻译和识别问题。项目组成员共发表相关论文42篇,成功承办了NLP&CC 2015、SMP2016、YSSNLP2017等学术会议,培养12名硕士,在读博士4名,邀请伊利诺伊大学香槟分校韩家炜教授、加拿大蒙特利尔大学聂建云教授、清华大学黄昌宁教授等知名学者来校讲学和交流。主要研究工作有:.1、大中华区汉语方言识别研究:从维基百科和新闻网站构建了大中华区汉语方言词对齐语料库,提出了一个基于word2vec的两阶段大中华区词对齐模型;使用字符级N元的常用特征、基于PMI和词对准特征等识别中国大陆、港澳台、马来西亚、新加坡等大中华区汉语方言;构建了汉语客家话平行语料库,使用中文字符、汉语拼音和方言发音等形式的二级细粒度来表示,并提出了相应的新词识别算法。.2、机器翻译中的多义词识别研究:提出一种从单语语料中抽取出特定领域的复述表来替换一般领域的复述,利用改进的M-L方法从单语语料过滤出特定领域子语料,后在过滤后的子语料中利用Markov网络模型抽取特定领域复述表,以提高同义词和近义词的匹配精度。.3、基于潜在语义空间的跨模态检索表示学习算法研究:基于特征投影策略,提出了两种有效的语义关联挖掘方法,综合考虑了同一模态内或跨模态的语义相关性。通过引入线性分类器,使得各模态都能够分别学习到各自具有判别性的二进制哈希码,同时通过耦合哈希表示在嵌入语义空间中最大化不同模态之间的相关性,从而捕捉到不同模态之间的语义相关性。.4、基于深度学习的机器翻译质量自动评价研究:针对机器翻译中的近义词和多义词会影响翻译性能,研究使用嵌入特征以及源句子和机器翻译的交叉熵,基于神经网络的自动后编辑,基于深度学习的上下文单词预测模型和矩阵分解模型提取句子向量特征,综合N-Gram特征和句子语义映射特征等提升翻译质量。

项目成果

期刊论文数量(27)
专著数量(0)
科研奖励数量(0)
会议论文数量(14)
专利数量(0)
中文微博句子倾向性分类中特征抽取研究
  • DOI:
    10.16357/j.cnki.issn1000-5862.2015.03.13
  • 发表时间:
    2015
  • 期刊:
    江西师范大学学报(自然科学版)
  • 影响因子:
    --
  • 作者:
    徐雄飞;徐凡;王明文;左家莉;罗文兵
  • 通讯作者:
    罗文兵
Learning discriminative representations for semantical crossmodal retrieval
学习语义跨模态检索的判别表示
  • DOI:
    --
  • 发表时间:
    2018
  • 期刊:
    Multimedia Systems
  • 影响因子:
    3.9
  • 作者:
    Aiwen Jiang;Hanxi Li;Yi Li;Mingwen Wang
  • 通讯作者:
    Mingwen Wang
基于多层Markov网络的信息检索模型
  • DOI:
    --
  • 发表时间:
    2016
  • 期刊:
    中文信息学报
  • 影响因子:
    --
  • 作者:
    廖亚男;王明文;左家莉;吴根秀;甘丽新
  • 通讯作者:
    甘丽新
基于Spatial-DCTHash动态参数网络的视觉问答算法
  • DOI:
    --
  • 发表时间:
    2017
  • 期刊:
    中国科学:信息科学
  • 影响因子:
    --
  • 作者:
    孟祥申;江爱文;刘长红;叶继华;王明文
  • 通讯作者:
    王明文
结合句子级别检索的信息检索模型
  • DOI:
    --
  • 发表时间:
    2016
  • 期刊:
    中文信息学报
  • 影响因子:
    --
  • 作者:
    左家莉;王明文;吴水秀;万剑怡
  • 通讯作者:
    万剑怡

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi || "--"}}
  • 发表时间:
    {{ item.publish_year || "--" }}
  • 期刊:
    {{ item.journal_name }}
  • 影响因子:
    {{ item.factor || "--"}}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.authors }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.authors }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.authors }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.authors }}

数据更新时间:{{ patent.updateTime }}

其他文献

基于样本重要性原理的KNN文本分类算法
  • DOI:
    10.1096/fj.201801956r
  • 发表时间:
    2015
  • 期刊:
    江西师范大学学报(自然科学版)
  • 影响因子:
    --
  • 作者:
    万韩永;左家莉;万剑怡;王明文
  • 通讯作者:
    王明文
免疫进化的投影寻踪模型在文本分类中的应用
  • DOI:
    --
  • 发表时间:
    --
  • 期刊:
    广西师范大学学报(自然科学版)
  • 影响因子:
    --
  • 作者:
    廖海波;万中英;王明文
  • 通讯作者:
    王明文
基于查询相关的近邻语言模型
  • DOI:
    --
  • 发表时间:
    2013
  • 期刊:
    山西大学学报(自然科学版)
  • 影响因子:
    --
  • 作者:
    曹瑛;王明文;涂伟;甘丽新
  • 通讯作者:
    甘丽新
一种基于族相合性的文本增量聚类箅法
  • DOI:
    --
  • 发表时间:
    2014
  • 期刊:
    计算机工程
  • 影响因子:
    --
  • 作者:
    王明文;万剑怡;罗远胜;左家莉
  • 通讯作者:
    左家莉
基于Markov网络团的查询意图识别
  • DOI:
    --
  • 发表时间:
    --
  • 期刊:
    江西师范大学学报(自然科学版)
  • 影响因子:
    --
  • 作者:
    蔡桂秀;王明文;揭安全;王晓庆
  • 通讯作者:
    王晓庆

其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi || "--" }}
  • 发表时间:
    {{ item.publish_year || "--"}}
  • 期刊:
    {{ item.journal_name }}
  • 影响因子:
    {{ item.factor || "--" }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}
empty
内容获取失败,请点击重试
重试联系客服
title开始分析
查看分析示例
此项目为已结题,我已根据课题信息分析并撰写以下内容,帮您拓宽课题思路:

AI项目思路

AI技术路线图

王明文的其他基金

无感情景下教师多模态教学言行的统一表示与匹配研究
  • 批准号:
  • 批准年份:
    2022
  • 资助金额:
    34 万元
  • 项目类别:
    地区科学基金项目
基于概率度量空间的词表示及词语相关性度量研究
  • 批准号:
    61876074
  • 批准年份:
    2018
  • 资助金额:
    62.0 万元
  • 项目类别:
    面上项目
文本自动分类中样本重要性模型及应用研究
  • 批准号:
    61272212
  • 批准年份:
    2012
  • 资助金额:
    70.0 万元
  • 项目类别:
    面上项目
基于潜在语义对偶空间的跨语言信息检索理论和算法研究
  • 批准号:
    60963014
  • 批准年份:
    2009
  • 资助金额:
    22.0 万元
  • 项目类别:
    地区科学基金项目

相似国自然基金

{{ item.name }}
  • 批准号:
    {{ item.ratify_no }}
  • 批准年份:
    {{ item.approval_year }}
  • 资助金额:
    {{ item.support_num }}
  • 项目类别:
    {{ item.project_type }}

相似海外基金

{{ item.name }}
{{ item.translate_name }}
  • 批准号:
    {{ item.ratify_no }}
  • 财政年份:
    {{ item.approval_year }}
  • 资助金额:
    {{ item.support_num }}
  • 项目类别:
    {{ item.project_type }}
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了

AI项目解读示例

课题项目:调控A型流感病毒诱导IFN-β表达的机制研究

AI项目摘要:

本研究聚焦于TRIM2蛋白在A型流感病毒诱导的IFN-β表达中的调控机制。A型流感病毒是全球性健康问题,其感染可导致严重的呼吸道疾病。IFN-β作为关键的抗病毒因子,其表达水平对抗病毒防御至关重要。然而,TRIM2如何调控IFN-β的表达尚未明确。本研究假设TRIM2通过与病毒RNA或宿主因子相互作用,影响IFN-β的产生。我们将采用分子生物学、细胞生物学和免疫学方法,探索TRIM2与A型流感病毒诱导IFN-β表达的关系。预期结果将揭示TRIM2在抗病毒免疫反应中的作用,为开发新的抗病毒策略提供理论基础。该研究对理解宿主抗病毒机制具有重要科学意义,并可能对临床治疗流感病毒感染提供新的视角。

AI项目思路:

科学问题:TRIM2如何调控A型流感病毒诱导的IFN-β表达?
前期研究:已有研究表明TRIM2参与抗病毒反应,但其具体机制尚不明确。
研究创新点:本研究将深入探讨TRIM2在IFN-β表达中的直接作用机制。
技术路线:包括病毒学、分子生物学、细胞培养和免疫检测技术。
关键技术:TRIM2与病毒RNA的相互作用分析,IFN-β启动子活性检测。
实验模型:使用A型流感病毒感染的细胞模型进行研究。

AI技术路线图

        graph TD
          A[研究起始] --> B[文献回顾与假设提出]
          B --> C[实验设计与方法学准备]
          C --> D[A型流感病毒感染模型建立]
          D --> E[TRIM2与病毒RNA相互作用分析]
          E --> F[TRIM2对IFN-β启动子活性的影响]
          F --> G[IFN-β表达水平测定]
          G --> H[TRIM2功能丧失与获得研究]
          H --> I[数据收集与分析]
          I --> J[结果解释与科学验证]
          J --> K[研究结论与未来方向]
          K --> L[研究结束]
      
关闭
close
客服二维码