基于潜在语义对偶空间的新词翻译自动识别方法研究
项目介绍
AI项目解读
基本信息
- 批准号:61462045
- 项目类别:地区科学基金项目
- 资助金额:45.0万
- 负责人:
- 依托单位:
- 学科分类:F0211.信息检索与社会计算
- 结题年份:2018
- 批准年份:2014
- 项目状态:已结题
- 起止时间:2015-01-01 至2018-12-31
- 项目参与者:左家莉; 罗远胜; 吴根秀; 徐凡; 廖海波; 付翠琴; 徐雄飞; 孟祥申; 刘燕;
- 关键词:
项目摘要
It is inevitable that the new words continuously emerge in cross-language communication in the era of globalization. Automatic identification and translation of new words, new meaning and new translation of the old words in statistical machine translation bring challenges to machine translation system. They also have great effect on performance of multilingual information processing. How to automatically detecting new words, disambiguate new meaning and new translation of new words is key to improve machine translation system performance. Based on bilingual latent semantic dual space proposed in National Natural Science Foundation of China project that we completed, the project focuses on translating new word in online multilingual text. The new word is defined as the emerging word or the old word is endowed with the new meaning. Unlike the traditional method of statistical machine translation, we will utilize the theories of subspace analysis and latent semantic analysis, model the bilingual latent semantic correspondence in bilingual parallel corpus and build latent semantic dual space. In the space, we will design automatic recognition algorithms of new word translation and identification algorithm of out-of-vocabulary. After matching the translation of new words and identifying the out-of-vocabulary, we will construct dictionary for new words with translation probability and update the probabilities of old word. Then we will refine terms translation probabilities. Furthermore, the new models and methods are proved in theory and verified in experiment, also become new ideas and theoretical basis for statistical machine translation.
在全球化时代的跨语言交流中,新词的出现已经成为语言处理研究领域不可避免的语言现象。在统计机器翻译中,新词自动识别、新词翻译、旧词新义和旧词新译给机器翻译系统带来了挑战,也很大程度上影响其多语言信息处理性能。如何自动识别新词,并有效消除旧词新义、旧词新译带来的歧义成为提高机器翻译系统性能的关键。本项目主要以我们已完成的国家自然科学基金项目中提出的双语潜在语义对偶空间的研究工作为基础,重点研究分析在线多语言文本中的新词(即新出现词语和赋以新义的原有词语)翻译问题,区别于传统的统计机器翻译方法,拟运用主流的子空间分析和潜在语义分析等理论,建立双语平行语料库中的双语潜在语义对应关系,构造潜在语义对偶空间;研究自动识别新词翻译的算法和未登录词识别算法;建立新词概率词典和更新已有词翻译概率,修正词汇化翻译概率;在理论上证明和实验中验证新模型和方法的有效性,为统计机器翻译研究提供一种新思路和理论依据。
结项摘要
在机器翻译中,新词自动识别、新词翻译、旧词新义和旧词新译给机器翻译系统带来了挑战。如何自动识别新词,并有效消除旧词新义、旧词新译带来的歧义成为提高机器翻译系统性能的关键。本项目主要运用主流的子空间分析理论和最新的深度学习理论,重点研究了多语言文本中的新词翻译和识别问题。项目组成员共发表相关论文42篇,成功承办了NLP&CC 2015、SMP2016、YSSNLP2017等学术会议,培养12名硕士,在读博士4名,邀请伊利诺伊大学香槟分校韩家炜教授、加拿大蒙特利尔大学聂建云教授、清华大学黄昌宁教授等知名学者来校讲学和交流。主要研究工作有:.1、大中华区汉语方言识别研究:从维基百科和新闻网站构建了大中华区汉语方言词对齐语料库,提出了一个基于word2vec的两阶段大中华区词对齐模型;使用字符级N元的常用特征、基于PMI和词对准特征等识别中国大陆、港澳台、马来西亚、新加坡等大中华区汉语方言;构建了汉语客家话平行语料库,使用中文字符、汉语拼音和方言发音等形式的二级细粒度来表示,并提出了相应的新词识别算法。.2、机器翻译中的多义词识别研究:提出一种从单语语料中抽取出特定领域的复述表来替换一般领域的复述,利用改进的M-L方法从单语语料过滤出特定领域子语料,后在过滤后的子语料中利用Markov网络模型抽取特定领域复述表,以提高同义词和近义词的匹配精度。.3、基于潜在语义空间的跨模态检索表示学习算法研究:基于特征投影策略,提出了两种有效的语义关联挖掘方法,综合考虑了同一模态内或跨模态的语义相关性。通过引入线性分类器,使得各模态都能够分别学习到各自具有判别性的二进制哈希码,同时通过耦合哈希表示在嵌入语义空间中最大化不同模态之间的相关性,从而捕捉到不同模态之间的语义相关性。.4、基于深度学习的机器翻译质量自动评价研究:针对机器翻译中的近义词和多义词会影响翻译性能,研究使用嵌入特征以及源句子和机器翻译的交叉熵,基于神经网络的自动后编辑,基于深度学习的上下文单词预测模型和矩阵分解模型提取句子向量特征,综合N-Gram特征和句子语义映射特征等提升翻译质量。
项目成果
期刊论文数量(27)
专著数量(0)
科研奖励数量(0)
会议论文数量(14)
专利数量(0)
中文微博句子倾向性分类中特征抽取研究
- DOI:10.16357/j.cnki.issn1000-5862.2015.03.13
- 发表时间:2015
- 期刊:江西师范大学学报(自然科学版)
- 影响因子:--
- 作者:徐雄飞;徐凡;王明文;左家莉;罗文兵
- 通讯作者:罗文兵
Learning discriminative representations for semantical crossmodal retrieval
学习语义跨模态检索的判别表示
- DOI:--
- 发表时间:2018
- 期刊:Multimedia Systems
- 影响因子:3.9
- 作者:Aiwen Jiang;Hanxi Li;Yi Li;Mingwen Wang
- 通讯作者:Mingwen Wang
基于多层Markov网络的信息检索模型
- DOI:--
- 发表时间:2016
- 期刊:中文信息学报
- 影响因子:--
- 作者:廖亚男;王明文;左家莉;吴根秀;甘丽新
- 通讯作者:甘丽新
基于Spatial-DCTHash动态参数网络的视觉问答算法
- DOI:--
- 发表时间:2017
- 期刊:中国科学:信息科学
- 影响因子:--
- 作者:孟祥申;江爱文;刘长红;叶继华;王明文
- 通讯作者:王明文
结合句子级别检索的信息检索模型
- DOI:--
- 发表时间:2016
- 期刊:中文信息学报
- 影响因子:--
- 作者:左家莉;王明文;吴水秀;万剑怡
- 通讯作者:万剑怡
数据更新时间:{{ journalArticles.updateTime }}
{{
item.title }}
{{ item.translation_title }}
- DOI:{{ item.doi || "--"}}
- 发表时间:{{ item.publish_year || "--" }}
- 期刊:{{ item.journal_name }}
- 影响因子:{{ item.factor || "--"}}
- 作者:{{ item.authors }}
- 通讯作者:{{ item.author }}
数据更新时间:{{ journalArticles.updateTime }}
{{ item.title }}
- 作者:{{ item.authors }}
数据更新时间:{{ monograph.updateTime }}
{{ item.title }}
- 作者:{{ item.authors }}
数据更新时间:{{ sciAawards.updateTime }}
{{ item.title }}
- 作者:{{ item.authors }}
数据更新时间:{{ conferencePapers.updateTime }}
{{ item.title }}
- 作者:{{ item.authors }}
数据更新时间:{{ patent.updateTime }}
其他文献
基于样本重要性原理的KNN文本分类算法
- DOI:10.1096/fj.201801956r
- 发表时间:2015
- 期刊:江西师范大学学报(自然科学版)
- 影响因子:--
- 作者:万韩永;左家莉;万剑怡;王明文
- 通讯作者:王明文
免疫进化的投影寻踪模型在文本分类中的应用
- DOI:--
- 发表时间:--
- 期刊:广西师范大学学报(自然科学版)
- 影响因子:--
- 作者:廖海波;万中英;王明文
- 通讯作者:王明文
基于查询相关的近邻语言模型
- DOI:--
- 发表时间:2013
- 期刊:山西大学学报(自然科学版)
- 影响因子:--
- 作者:曹瑛;王明文;涂伟;甘丽新
- 通讯作者:甘丽新
一种基于族相合性的文本增量聚类箅法
- DOI:--
- 发表时间:2014
- 期刊:计算机工程
- 影响因子:--
- 作者:王明文;万剑怡;罗远胜;左家莉
- 通讯作者:左家莉
基于Markov网络团的查询意图识别
- DOI:--
- 发表时间:--
- 期刊:江西师范大学学报(自然科学版)
- 影响因子:--
- 作者:蔡桂秀;王明文;揭安全;王晓庆
- 通讯作者:王晓庆
其他文献
{{
item.title }}
{{ item.translation_title }}
- DOI:{{ item.doi || "--" }}
- 发表时间:{{ item.publish_year || "--"}}
- 期刊:{{ item.journal_name }}
- 影响因子:{{ item.factor || "--" }}
- 作者:{{ item.authors }}
- 通讯作者:{{ item.author }}
内容获取失败,请点击重试
查看分析示例
此项目为已结题,我已根据课题信息分析并撰写以下内容,帮您拓宽课题思路:
AI项目摘要
AI项目思路
AI技术路线图
请为本次AI项目解读的内容对您的实用性打分
非常不实用
非常实用
1
2
3
4
5
6
7
8
9
10
您认为此功能如何分析更能满足您的需求,请填写您的反馈:
王明文的其他基金
无感情景下教师多模态教学言行的统一表示与匹配研究
- 批准号:
- 批准年份:2022
- 资助金额:34 万元
- 项目类别:地区科学基金项目
基于概率度量空间的词表示及词语相关性度量研究
- 批准号:61876074
- 批准年份:2018
- 资助金额:62.0 万元
- 项目类别:面上项目
文本自动分类中样本重要性模型及应用研究
- 批准号:61272212
- 批准年份:2012
- 资助金额:70.0 万元
- 项目类别:面上项目
基于潜在语义对偶空间的跨语言信息检索理论和算法研究
- 批准号:60963014
- 批准年份:2009
- 资助金额:22.0 万元
- 项目类别:地区科学基金项目
相似国自然基金
{{ item.name }}
- 批准号:{{ item.ratify_no }}
- 批准年份:{{ item.approval_year }}
- 资助金额:{{ item.support_num }}
- 项目类别:{{ item.project_type }}
相似海外基金
{{
item.name }}
{{ item.translate_name }}
- 批准号:{{ item.ratify_no }}
- 财政年份:{{ item.approval_year }}
- 资助金额:{{ item.support_num }}
- 项目类别:{{ item.project_type }}