基于主题模型的枢轴语言统计机器翻译研究
项目介绍
AI项目解读
基本信息
- 批准号:61303082
- 项目类别:青年科学基金项目
- 资助金额:27.0万
- 负责人:
- 依托单位:
- 学科分类:F0211.信息检索与社会计算
- 结题年份:2016
- 批准年份:2013
- 项目状态:已结题
- 起止时间:2014-01-01 至2016-12-31
- 项目参与者:陈毅东; 张开旭; 崔志健; 黄研洲; 徐伟; 邬昌兴; 何钟豪;
- 关键词:
项目摘要
Pivot language approach for statistical machine translation (SMT), which is able to break through the bottleneck in parallel corpus, has become a hotspot in machine translation research and applications. However, because of the diversity and sparsity in language, the pivot-side context information is far from fully utilized in the implementation of conventional pivot language approaches, and this results in negative effects on final models. In this project, we propose to introduce topic model to establish context-aware pivot-based SMT. The research mainly includes the following three aspects: ① We focus on how to represent the context with topic model information, which is able to overcome the defect of the conventional approaches and meet the modeling needs in pivot-based SMT. ② Based on the above representation, we propose a word alignment model with the topic-based context in the pivot side. ③ Based on the above representation, we propose a translation model with the topic-based context in the pivot side. Taking advantage of topic model, our project promotes pivot-based SMT from context-free modeling to context-sensitive modeling. The implementation of our project provides new insight into breaking down the resource barrier using pivot language approaches, thus it has important theoretical and practical significance for resource-poor machine translation.
枢轴语言方法能够克服统计机器翻译缺乏双语语料的困境,成为近年来机器翻译研究和产业化的热点之一。然而,由于语言的多样性和稀疏性,目前的枢轴语言建模方法无法充分利用枢轴语言翻译单元的上下文信息,对最终模型产生负面影响。对此,本项目提出引入主题模型来建立上下文相关的枢轴语言统计机器翻译。项目主要工作包括:① 研究基于主题模型的上下文表示方法,克服传统方法存在的缺陷,满足枢轴语言统计机器翻译建模的需求;② 在基于主题模型的上下文表现形式下,研究引入枢轴语言上下文的词语对齐建模新方法;③ 在基于主题模型的上下文表现形式下,研究引入枢轴语言上下文的翻译模型建模新方法。项目充分发挥了主题模型的优势,推动枢轴语言统计机器翻译由上下文无关建模发展为上下文相关建模。项目的开展将为如何更好地利用枢轴语言方法来解决训练资源缺乏问题提供一种新思路,对于资源贫乏语言的机器翻译具有重要意义。
结项摘要
枢轴语言方法能够克服统计机器翻译缺乏双语语料的困境,成为近年来机器翻译研究和产业化的热点之一。然而,由于语言的多样性和稀疏性,目前的枢轴语言建模方法无法充分利用枢轴语言翻译单元的上下文信息,对最终模型产生负面影响。对此,本项目提出引入主题模型来改善枢轴语言统计机器翻译。在项目实施过程中,课题组主要开展了以下研究工作:(1)引入基于主题复述知识的统计机器翻译模型研究:研究如何引入基于主题模型的篇章上下文信息来改善基于平行语料的复述知识获取质量;(2)基于主题触发的统计机器翻译模型研究:研究如何引入基于主题模型的篇章上下文信息来改善统计机器翻译模型建模效果;(3)主题敏感的枢轴语言统计机器翻译模型研究:研究如何引入基于主题模型的篇章上下文信息对改善枢轴语言统计机器翻译建模效果;(4)面向统计机器翻译的上下文感知主题模型研究:研究如何利用主题模型来建模双语平行句对的生成过程,使得不同层次上下文信息对译文选择的影响能够联合建模;项目充分发挥了主题模型的优势,推动统计机器翻译,特别是枢轴语言统计机器翻译由上下文无关建模发展为上下文相关建模。项目的开展对于统计机器翻译研究具有重要理论意义与实际意义。
项目成果
期刊论文数量(9)
专著数量(0)
科研奖励数量(0)
会议论文数量(11)
专利数量(0)
引入集成学习的最大熵短语调序模型
- DOI:--
- 发表时间:2014
- 期刊:中文信息学报
- 影响因子:--
- 作者:苏劲松;史晓东;陈毅东;黄研洲
- 通讯作者:黄研洲
引入基于主题复述知识的统计机器翻译模型
- DOI:--
- 发表时间:2014
- 期刊:浙江大学学报(工学版)
- 影响因子:--
- 作者:董槐林;陈毅东;史晓东;吴清强
- 通讯作者:吴清强
An SNN-Based Semantic Role Labeling Model with Its Network Parameters Optimized Using an Improved PSO Algorithm
基于SNN的语义角色标注模型及其网络参数的改进PSO算法优化
- DOI:10.1007/s11063-015-9449-y
- 发表时间:2016
- 期刊:Neural Processing Letters
- 影响因子:3.1
- 作者:Chen; Yidong;Huang; Zhehuang;Shi; Xiaodong
- 通讯作者:Xiaodong
A Topic-Triggered Translation Model for Statistical Machine Translation
统计机器翻译的主题触发翻译模型
- DOI:10.1049/cje.2016.10.007
- 发表时间:--
- 期刊:Chinese Journal of Electronics
- 影响因子:1.2
- 作者:Qingqiang Wu;Junfeng Yao;Fei Long;Haiying Zhang
- 通讯作者:Haiying Zhang
语料库语言学视角下的台湾汉字简化研究
- DOI:--
- 发表时间:2014
- 期刊:北京大学学报(自然科学版)
- 影响因子:--
- 作者:史晓东;陈毅东;任文瑶;阎思瑶
- 通讯作者:阎思瑶
数据更新时间:{{ journalArticles.updateTime }}
{{
item.title }}
{{ item.translation_title }}
- DOI:{{ item.doi || "--"}}
- 发表时间:{{ item.publish_year || "--" }}
- 期刊:{{ item.journal_name }}
- 影响因子:{{ item.factor || "--"}}
- 作者:{{ item.authors }}
- 通讯作者:{{ item.author }}
数据更新时间:{{ journalArticles.updateTime }}
{{ item.title }}
- 作者:{{ item.authors }}
数据更新时间:{{ monograph.updateTime }}
{{ item.title }}
- 作者:{{ item.authors }}
数据更新时间:{{ sciAawards.updateTime }}
{{ item.title }}
- 作者:{{ item.authors }}
数据更新时间:{{ conferencePapers.updateTime }}
{{ item.title }}
- 作者:{{ item.authors }}
数据更新时间:{{ patent.updateTime }}
其他文献
一种考虑对齐不一致的短语翻译概率估计方法
- DOI:--
- 发表时间:--
- 期刊:中文信息学报
- 影响因子:--
- 作者:刘群;吕雅娟;苏劲松
- 通讯作者:苏劲松
基于带权词格的循环神经网络句子语义表示建模
- DOI:--
- 发表时间:2019
- 期刊:Z201904018
- 影响因子:--
- 作者:张祥文;陆紫耀;杨静;林倩;卢宇;王鸿吉;苏劲松
- 通讯作者:苏劲松
一种基于循环神经网络的古文断句方法
- DOI:10.13209/j.0479-8023.2017.032
- 发表时间:2016
- 期刊:北京大学学报(自然科学版)
- 影响因子:--
- 作者:王博立;史晓东;苏劲松
- 通讯作者:苏劲松
神经网络机器翻译研究热点与前沿趋势分析
- DOI:--
- 发表时间:2019
- 期刊:中文信息学报
- 影响因子:--
- 作者:林倩;刘庆;苏劲松;林欢;杨静;罗斌
- 通讯作者:罗斌
一种考虑对齐不一致的短语翻译概率估计方法
- DOI:--
- 发表时间:--
- 期刊:中文信息学报
- 影响因子:--
- 作者:吕雅娟;刘群;苏劲松
- 通讯作者:苏劲松
其他文献
{{
item.title }}
{{ item.translation_title }}
- DOI:{{ item.doi || "--" }}
- 发表时间:{{ item.publish_year || "--"}}
- 期刊:{{ item.journal_name }}
- 影响因子:{{ item.factor || "--" }}
- 作者:{{ item.authors }}
- 通讯作者:{{ item.author }}
内容获取失败,请点击重试
查看分析示例
此项目为已结题,我已根据课题信息分析并撰写以下内容,帮您拓宽课题思路:
AI项目摘要
AI项目思路
AI技术路线图
请为本次AI项目解读的内容对您的实用性打分
非常不实用
非常实用
1
2
3
4
5
6
7
8
9
10
您认为此功能如何分析更能满足您的需求,请填写您的反馈:
苏劲松的其他基金
多语言关键短语生成技术研究
- 批准号:
- 批准年份:2022
- 资助金额:53 万元
- 项目类别:面上项目
面向机器翻译的多层次文本嵌入表示学习研究
- 批准号:61672440
- 批准年份:2016
- 资助金额:62.0 万元
- 项目类别:面上项目
相似国自然基金
{{ item.name }}
- 批准号:{{ item.ratify_no }}
- 批准年份:{{ item.approval_year }}
- 资助金额:{{ item.support_num }}
- 项目类别:{{ item.project_type }}
相似海外基金
{{
item.name }}
{{ item.translate_name }}
- 批准号:{{ item.ratify_no }}
- 财政年份:{{ item.approval_year }}
- 资助金额:{{ item.support_num }}
- 项目类别:{{ item.project_type }}