基于生成树库分析与生成一体化机器翻译模型研究
项目介绍
AI项目解读
基本信息
- 批准号:60973062
- 项目类别:面上项目
- 资助金额:28.0万
- 负责人:
- 依托单位:
- 学科分类:F0211.信息检索与社会计算
- 结题年份:2012
- 批准年份:2009
- 项目状态:已结题
- 起止时间:2010-01-01 至2012-12-31
- 项目参与者:牟小峰; 蔡志超; 黄志娥; 吴礼文;
- 关键词:
项目摘要
面向英汉机器翻译的生成树库是北京语言大学研发的语料库,树库中的生成树中包含了机器翻译所需要的深层次、细粒度的翻译知识:英语的句法结构、汉语译文生成模式和词汇短语的习惯翻译等,本研究以该树库作为主要训练语料,结合现有的大规模双语和单语语料,研究建立面向英汉机器翻译分析和生成一体化统计模型:将规则化知识和统计方法有机结合在一起,避免规则方法层次化翻译过程所造成的错误累计,和规则不易把控的问题;同时,该模型统计对象为带有句法信息的英文短语和对应译文生成模式,解决了现有机器统计翻译以词或者短语为统计对象所造成的模型泛化能力差的问题。另外,现有的短语翻译模型短语限定为连续词串,译文生成时,全局调序能力差,生成树库具有大量短语调序知识,依托本树库,译文生成时短语预调序也是本研究另外主要内容。
结项摘要
课题采用生成树库,针对英汉翻译,通过专家规则与实例规则相结合的办法进行短语预调序。通过对英汉翻译中的短语结构进行分类,选择其中出现频度最高的名词短语进行预调序处理。实验结果显示,基于专家规则的预调序方法能够在一定程度上提高最终的翻译结果。.课题成果体现在:.1. 从英汉翻译的实际需求出发构造翻译所需要的语言资源。打破了Penn Treebank的复杂标注体系,将面向句法分析的句法标注改造为面向英汉机器翻译的句法标注,这有助于减少机器翻译过程中结构转换的复杂性。.2. 首次将短语预调序的方法应用在英汉机器翻译中,并将规则方法与统计方法结合起来,增强短语调序的效果。通过融合这两种不同的调序思路,提高了翻译结果。实验显示,融合的方法要优于单一的调序方法。.4. 基于大规模语料库的英汉短语预调序。实验结果显示,基于实例在保持较高调序准确率的情况下,克服了最大熵调序模型的缺陷。课题仍然有大量问题需要解决,主要包括:.1. 对短语结构转换的规则挖掘不彻底,停留在常用短语结构上,缺乏对短语结构转换更宏观的把握。.2. 与现有的短语翻译模型的融合不够,以致对翻译结果的提高幅度还可以增加。
项目成果
期刊论文数量(3)
专著数量(0)
科研奖励数量(0)
会议论文数量(5)
专利数量(0)
语料库自然标注信息与中文分词应用研究
- DOI:--
- 发表时间:2013
- 期刊:北京大学学报(自然科学版)
- 影响因子:--
- 作者:饶高琦;修驰;荀恩东
- 通讯作者:荀恩东
词边界与汉语分词
- DOI:--
- 发表时间:--
- 期刊:International Journal of Asia Language Processing.
- 影响因子:--
- 作者:饶高琦;荀恩东
- 通讯作者:荀恩东
数据更新时间:{{ journalArticles.updateTime }}
{{
item.title }}
{{ item.translation_title }}
- DOI:{{ item.doi || "--"}}
- 发表时间:{{ item.publish_year || "--" }}
- 期刊:{{ item.journal_name }}
- 影响因子:{{ item.factor || "--"}}
- 作者:{{ item.authors }}
- 通讯作者:{{ item.author }}
数据更新时间:{{ journalArticles.updateTime }}
{{ item.title }}
- 作者:{{ item.authors }}
数据更新时间:{{ monograph.updateTime }}
{{ item.title }}
- 作者:{{ item.authors }}
数据更新时间:{{ sciAawards.updateTime }}
{{ item.title }}
- 作者:{{ item.authors }}
数据更新时间:{{ conferencePapers.updateTime }}
{{ item.title }}
- 作者:{{ item.authors }}
数据更新时间:{{ patent.updateTime }}
其他文献
基于WordEmbedding语义相似度的字母缩略术语消歧
- DOI:--
- 发表时间:2014
- 期刊:中文信息学报
- 影响因子:--
- 作者:于东;荀恩东
- 通讯作者:荀恩东
一种基于三维空间信息的字形匹配方法
- DOI:--
- 发表时间:--
- 期刊:北京大学学报(自然科学版)
- 影响因子:--
- 作者:刘颖滨;孙燕南;荀恩东
- 通讯作者:荀恩东
基于点关联测度矩阵分解的中英跨语言词嵌入
- DOI:--
- 发表时间:--
- 期刊:中文信息学报
- 影响因子:--
- 作者:于东;赵艳;韦林煊;荀恩东
- 通讯作者:荀恩东
文言信息的自动抽取:基于统计和规则的尝试
- DOI:--
- 发表时间:2015
- 期刊:中文信息学报
- 影响因子:--
- 作者:虞宁翌;饶高琦;荀恩东
- 通讯作者:荀恩东
汉字书写过程中笔画规范性的实时分级评判
- DOI:--
- 发表时间:--
- 期刊:计算机应用
- 影响因子:--
- 作者:韩睿方;安维华;荀恩东;李琪
- 通讯作者:李琪
其他文献
{{
item.title }}
{{ item.translation_title }}
- DOI:{{ item.doi || "--" }}
- 发表时间:{{ item.publish_year || "--"}}
- 期刊:{{ item.journal_name }}
- 影响因子:{{ item.factor || "--" }}
- 作者:{{ item.authors }}
- 通讯作者:{{ item.author }}
内容获取失败,请点击重试
查看分析示例
此项目为已结题,我已根据课题信息分析并撰写以下内容,帮您拓宽课题思路:
AI项目摘要
AI项目思路
AI技术路线图
请为本次AI项目解读的内容对您的实用性打分
非常不实用
非常实用
1
2
3
4
5
6
7
8
9
10
您认为此功能如何分析更能满足您的需求,请填写您的反馈:
荀恩东的其他基金
中文意合图的表征与生成方法研究
- 批准号:
- 批准年份:2020
- 资助金额:59 万元
- 项目类别:面上项目
汉字书写规范性表征与评判
- 批准号:61170162
- 批准年份:2011
- 资助金额:57.0 万元
- 项目类别:面上项目
非母语写作水平计算机自动评测技术研究
- 批准号:60573184
- 批准年份:2005
- 资助金额:5.0 万元
- 项目类别:面上项目
相似国自然基金
{{ item.name }}
- 批准号:{{ item.ratify_no }}
- 批准年份:{{ item.approval_year }}
- 资助金额:{{ item.support_num }}
- 项目类别:{{ item.project_type }}
相似海外基金
{{
item.name }}
{{ item.translate_name }}
- 批准号:{{ item.ratify_no }}
- 财政年份:{{ item.approval_year }}
- 资助金额:{{ item.support_num }}
- 项目类别:{{ item.project_type }}