基于映射关系理解的实体翻译方法及应用研究
项目介绍
AI项目解读
基本信息
- 批准号:61003160
- 项目类别:青年科学基金项目
- 资助金额:21.0万
- 负责人:
- 依托单位:
- 学科分类:F0211.信息检索与社会计算
- 结题年份:2013
- 批准年份:2010
- 项目状态:已结题
- 起止时间:2011-01-01 至2013-12-31
- 项目参与者:吴晓锋; 周可艳; 汪昆; 翟飞飞; 涂眉; 李茂西; 夏睿; 鉴萍;
- 关键词:
项目摘要
实体翻译在机器翻译、跨语言信息检索等领域都有非常重要的用途。目前实体翻译面临以下几个挑战:实体作为多信息成分的组合体,在翻译中呈现不同的映射方式,目前翻译模型难以表示和容纳这些丰富的映射知识;传统的双语实体抽取方法难以从模式、内容多样性的网络资源中获取双语词典;实体识别错误是实体翻译应用于机器翻译系统的最大障碍。因此,本项目拟在以下几个方面进行深入研究和探索:(1)在对实体映射关系进行分析、定义的基础上,结合实体识别任务,提出实体映射关系的理解方法;(2)在此基础上,研究提出基于映射关系理解的实体翻译一体化模型;(3)利用图模型对混合网页中翻译对的抽取问题进行建模,并建立主动学习引导下的双语词典生成的新方法;(4)最终面向机器翻译的应用,提出基于多核学习的扩展实体翻译模型,实现实体识别和实体翻译的交互,并辅助机器翻译系统性能的提高。本项目开展的研究工作具有重要的理论意义和应用价值。
结项摘要
本项目针对目前命名实体翻译面临的几个关键问题:如何准确理解实体内部词所映射的语义并进行翻译;如何使双语实体识别与实体对齐相辅相成;以及最终如何有机结合实体翻译与机器翻译等问题,展开了一系列研究,取得的主要技术进展和研究成果归纳如下:(1) 分析了汉英实体识别的差异性和互补性,提出了汉英双语实体识别与对齐的联合式模型,突破了传统的实体对齐框架。该联合式模型不仅有效提高了实体对齐的性能,而且大幅度提高了实体识别结果。(2) 提出了一种融合生成式和区分式的汉语分词模型,可应用于实体的内部标注,可以更好地理解实体内部词的语义及相互关系。(3) 针对实体词的多义性,提出了基于语义理解的汉语实体翻译方法,有效提高了人名、地名和机构名的翻译效果。(4) 基于双语实体识别与对齐的特性,提出了汉英双语实体识别与对齐的交互式方法,包括基本对齐计算和修正对齐计算。其中的修正对齐计算根据单语和双语序列上的实体置信度,重新判断实体的边界和类别,实现了双语实体识别与对齐的交互。(5) 未登录词在实体中占有很大的比例,严重影响了机器翻译效果,因此,针对未登录词提出了基于语义功能的挖掘模型,可以有效地解决未登录词在翻译模型中造成的短语调序问题。. 基于以上研究成果,我们实现了一个汉英双语实体识别与翻译的高性能系统。该系统加入到机器翻译系统后,可以有效改善译文质量,为将来的进一步研究打下了扎实的基础。. 三年来,项目总体进展顺利,所有研究计划已按要求完成。共发表学术论文15篇,被国际顶级期刊录用论文2篇,获一项学术会议最佳论文奖;申请国家发明专利2项,获2项软件著作权登记;培养研究生8名,达到了项目的预期目标和成果。
项目成果
期刊论文数量(6)
专著数量(0)
科研奖励数量(0)
会议论文数量(10)
专利数量(0)
Integrating Generative and Discriminative Character-Based Models for Chinese Word Segmentation
集成基于生成和判别字符的模型进行中文分词
- DOI:10.1145/2184436.2184440
- 发表时间:2012-06
- 期刊:ACM Transactions on Asian Language Information Processing
- 影响因子:--
- 作者:Kun Wang;Chengqing Zong;Keh-Yih Su
- 通讯作者:Keh-Yih Su
基于最大熵的汉语篇章结构自动分析方法
- DOI:--
- 发表时间:--
- 期刊:北大学报(自然版)
- 影响因子:--
- 作者:涂眉;周玉;宗成庆
- 通讯作者:宗成庆
一个基于高阶词汇依存特征的短语结构分析树重排序模型
- DOI:--
- 发表时间:2012
- 期刊:软件学报
- 影响因子:--
- 作者:王志国;宗成庆
- 通讯作者:宗成庆
A Joint Model to Identify and Align Bilingual Named Entities
识别和对齐双语命名实体的联合模型
- DOI:10.1162/coli_a_00122
- 发表时间:2013-06
- 期刊:COMPUTATIONAL LINGUISTICS
- 影响因子:9.3
- 作者:Yufeng Chen;Chengqing Zong;Keh-Yih Su
- 通讯作者:Keh-Yih Su
汉英双语命名实体识别与对齐的交互式方法
- DOI:--
- 发表时间:2011
- 期刊:计算机学报
- 影响因子:--
- 作者:陈钰枫;宗成庆;苏克毅
- 通讯作者:苏克毅
数据更新时间:{{ journalArticles.updateTime }}
{{
item.title }}
{{ item.translation_title }}
- DOI:{{ item.doi || "--"}}
- 发表时间:{{ item.publish_year || "--" }}
- 期刊:{{ item.journal_name }}
- 影响因子:{{ item.factor || "--"}}
- 作者:{{ item.authors }}
- 通讯作者:{{ item.author }}
数据更新时间:{{ journalArticles.updateTime }}
{{ item.title }}
- 作者:{{ item.authors }}
数据更新时间:{{ monograph.updateTime }}
{{ item.title }}
- 作者:{{ item.authors }}
数据更新时间:{{ sciAawards.updateTime }}
{{ item.title }}
- 作者:{{ item.authors }}
数据更新时间:{{ conferencePapers.updateTime }}
{{ item.title }}
- 作者:{{ item.authors }}
数据更新时间:{{ patent.updateTime }}
其他文献
融合词法句法分析联合模型的树到串EBMT方法
- DOI:10.13209/j.0479-8023.2017.035
- 发表时间:2016
- 期刊:北京大学学报(自然科学版)
- 影响因子:--
- 作者:王丹丹;徐金安;陈钰枫;张玉洁;杨晓晖
- 通讯作者:杨晓晖
基于随机行走N步的汉语复述短获取方法
- DOI:--
- 发表时间:2017
- 期刊:中国科学:信息科学
- 影响因子:--
- 作者:马军;张玉洁;徐金安;陈钰枫
- 通讯作者:陈钰枫
基于字形与语音的音译单元对齐方法
- DOI:10.13209/j.0479-8023.2016.001
- 发表时间:2015
- 期刊:北京大学学报(自然科学版)
- 影响因子:--
- 作者:刘博佳;徐金安;陈钰枫;张玉洁
- 通讯作者:张玉洁
复述平行语料构建及其应用方法研究
- DOI:--
- 发表时间:2021
- 期刊:北京大学学报(自然科学版)
- 影响因子:--
- 作者:王雅松;刘明童;张玉洁;徐金安;陈钰枫
- 通讯作者:陈钰枫
基于单语语料的面向日语假名的日汉人名翻译对抽取方法
- DOI:--
- 发表时间:2015
- 期刊:中文信息学报
- 影响因子:--
- 作者:王东明;徐金安;陈钰枫;张玉洁
- 通讯作者:张玉洁
其他文献
{{
item.title }}
{{ item.translation_title }}
- DOI:{{ item.doi || "--" }}
- 发表时间:{{ item.publish_year || "--"}}
- 期刊:{{ item.journal_name }}
- 影响因子:{{ item.factor || "--" }}
- 作者:{{ item.authors }}
- 通讯作者:{{ item.author }}

内容获取失败,请点击重试

查看分析示例
此项目为已结题,我已根据课题信息分析并撰写以下内容,帮您拓宽课题思路:
AI项目摘要
AI项目思路
AI技术路线图

请为本次AI项目解读的内容对您的实用性打分
非常不实用
非常实用
1
2
3
4
5
6
7
8
9
10
您认为此功能如何分析更能满足您的需求,请填写您的反馈:
相似国自然基金
{{ item.name }}
- 批准号:{{ item.ratify_no }}
- 批准年份:{{ item.approval_year }}
- 资助金额:{{ item.support_num }}
- 项目类别:{{ item.project_type }}
相似海外基金
{{
item.name }}
{{ item.translate_name }}
- 批准号:{{ item.ratify_no }}
- 财政年份:{{ item.approval_year }}
- 资助金额:{{ item.support_num }}
- 项目类别:{{ item.project_type }}