基于互联网的汉语-缅语双语平行语料抽取方法及语料库构建
项目介绍
AI项目解读
基本信息
- 批准号:61662041
- 项目类别:地区科学基金项目
- 资助金额:40.0万
- 负责人:
- 依托单位:
- 学科分类:F0211.信息检索与社会计算
- 结题年份:2020
- 批准年份:2016
- 项目状态:已结题
- 起止时间:2017-01-01 至2020-12-31
- 项目参与者:王红斌; 张亚飞; 高盛祥; 文永华; 易慧萍; 王雍凯; 李中伟; 张家富( AUNG HLA MOE); 林颂凯;
- 关键词:
项目摘要
For "the Belt and Road", we need to know well every relative country's culture and language in order to pave the way, among them, the research on Myanmar (Burmese) language machine understanding, information retrieval and machine translation of Chinese-Myanmar language, will promote the great significance for national strategy of "the Belt and Road". However, due to the Myanmar language belongs to the low-resources language, Chinese-Myanmar parallel corpus is very scarce, and there is a big difference of lexical and syntax between Chinese and Myanmar language. Combining with the characteristics of Chinese and Myanmar language, on this topic, we will research on the integration of topic context features and construction of word similarity characteristics for Chinese-Myanmar language by using bilingual LDA model, solving the problem on similarity calculation of bilingual comparable documents between the Chinese-Myanmar language. The research will base on bilingual lexicon, bilingual entity, and the method of parallel sub-sentential fragments on the bilingual comparable corpora of Chinese-Myanmar language. For the scarce problem of bilingual sentence alignment corpora for Chinese-Myanmar language, the research based on the method of bilingual sentence semantic representation of convolutional neural networks, realize the pivot as English language bilingual sentence alignment corpora for Chinese-Myanmar. Based on the above method to obtain the bilingual corpus comparable document, bilingual lexicon, bilingual entity, bilingual clause aligned fragments and bilingual sentence alignment corpora of Chinese-Myanmar Language automatically and the construction of parallel corpus for Chinese-Myanmar language. As the results of project research, there will be bilingual cross-language information retrieval and statistical machine translation of Chinese-Myanmar language that will provide the basis of language support for the research work.
“一带一路”需要语言铺路,研究缅甸语言机器理解以及汉语—缅甸语跨语言检索、机器翻译,对推动国家“一带一路”战略具有重大意义。然而,由于缅甸语属于低资源语言,汉语—缅甸语双语平行语料非常稀缺,并且在词法及句法方面缅甸语与汉语存在较大差别。结合汉语、缅甸语语言特点,本课题研究融合主题词上下文特征及词语相似度特征构建汉语-缅语双语主题模型的方法,解决汉语-缅语双语可比文档相似度计算问题,研究基于汉-缅双语可比语料的双语词汇、双语实体、双语对齐子句片段抽取方法;针对汉-缅双语句子对齐语料稀缺的问题,研究基于卷积神经元网络的双语句子语义表征方法,实现以英语为枢轴语言的汉-缅双语句子对齐语料获取。基于以上方法自动获取汉-缅双语可比文档语料、双语词汇、双语实体、双语子句对齐片段及双语句子对齐语料,构建汉-缅双语平行语料库。研究成果将为开展汉-缅双语跨语言信息检索、统计机器翻译等研究工作提供基础语料支撑。
结项摘要
缅甸语是典型的低资源语言,缅甸语分词、词性标记、句法分析及汉-缅双语平行语料构建是开展汉-缅机器翻译研究基础。项目围绕缅甸语词法、句法分析以及汉-缅双语平行语料库构建等内容开展研究,取得了以下成果:.(1)针对与缅甸语分词、词性标记方法,提出了基于神经联合模型的缅甸语音节分词、词语分词以及词性标记的方法;针对缅甸语依存句法分析面临语料稀缺问题,提出了基于迁移学习的缅甸语依存句法分析方法。针对汉缅双语词典构建问题,利用可比文档中上下文的信息,提出了基于半监督的汉缅双语词典构建方法和融合主题及上下文特征的汉缅双语词汇抽取方法,构建了汉-缅双语词典;针对汉缅双语文档、句对抽取任务,根据汉缅双语网站中可比文档的特点,提出了融合主题模型及双语词向量的汉缅双语可比文档获取方法;针对缅甸语字符组合特征导致缅甸语文字识别不准确的问题,提出了基于知识蒸馏的缅甸语OCR方法,解决了基于文本-图片跨模态的双语文本数据获取。针对双语平行句对抽取任务,提出了基于CNN-CorrNet网络的汉缅平行句对抽取方法,基于枢轴语言的汉语-缅语双语平行句对获取方法以及结构特征一致性约束的双语平行句对抽取方法;针对汉-缅双语平行语料稀缺导致机器翻译性能较差的问题,提出了基于多语言联合训练的汉英缅神经机器翻译方法。(2)课题研究成果发表相关论文11篇,其中SCI收录2篇,EI收录2篇,北大中文核心期刊7篇,受理中国发明专利9项,其中,授权发明专利2项,登记软件著作权5项,培养硕士研究生12名。(3)在语料库构建方面,构建了分词及词性标记语料库40万词,缅甸语OCR识别语料600万条,汉-缅双语实体对5万词条,汉-缅双语句对200万条、双语词典15万条、汉-缅双语可比文档40万篇。(4)研发了缅甸语分词及词性标记系统,缅甸语OCR系统,汉-缅机器翻译系统,研发的系统已在网信、军方、安全等领域运用,取得了较好的应用效果。
项目成果
期刊论文数量(6)
专著数量(0)
科研奖励数量(0)
会议论文数量(1)
专利数量(9)
融合主题及上下文特征的汉缅双语词汇抽取方法
- DOI:--
- 发表时间:2021
- 期刊:小型微型计算机系统
- 影响因子:--
- 作者:李越;毛存礼;余正涛;高盛祥;王振晗;张亚飞
- 通讯作者:张亚飞
结构特征一致性约束的双语平行句对抽取
- DOI:--
- 发表时间:2021
- 期刊:重庆大学学报(自然科学版)
- 影响因子:--
- 作者:毛存礼;高旭;余正涛;王振晗;高盛祥;满志博
- 通讯作者:满志博
Word segmentation for Burmese based on dual-layer CRFs
基于双层CRF的缅甸语分词
- DOI:10.1145/3232537
- 发表时间:2018
- 期刊:ACM Transactions on Asian and Low-Resource Language Information Processing
- 影响因子:2
- 作者:Zhang Shaoning;Mao Cunli;Yu Zhengtao;Wang Hongbin;Li Zhongwei;Zhang Jiafu
- 通讯作者:Zhang Jiafu
融合主题模型及双语词向量的汉缅双语可比文档获取方法
- DOI:--
- 发表时间:2021
- 期刊:中文信息学报
- 影响因子:--
- 作者:李训宇;毛存礼;余正涛;高盛祥;王振晗;张亚飞
- 通讯作者:张亚飞
基于CNN-CorrNet网络的汉缅平行句对抽取方法
- DOI:10.1021/acs.jpcc.9b04383
- 发表时间:2020
- 期刊:中文信息学报
- 影响因子:--
- 作者:毛存礼;吴霞;余正涛;朱俊国;李云龙;王振晗
- 通讯作者:王振晗
数据更新时间:{{ journalArticles.updateTime }}
{{
item.title }}
{{ item.translation_title }}
- DOI:{{ item.doi || "--"}}
- 发表时间:{{ item.publish_year || "--" }}
- 期刊:{{ item.journal_name }}
- 影响因子:{{ item.factor || "--"}}
- 作者:{{ item.authors }}
- 通讯作者:{{ item.author }}
数据更新时间:{{ journalArticles.updateTime }}
{{ item.title }}
- 作者:{{ item.authors }}
数据更新时间:{{ monograph.updateTime }}
{{ item.title }}
- 作者:{{ item.authors }}
数据更新时间:{{ sciAawards.updateTime }}
{{ item.title }}
- 作者:{{ item.authors }}
数据更新时间:{{ conferencePapers.updateTime }}
{{ item.title }}
- 作者:{{ item.authors }}
数据更新时间:{{ patent.updateTime }}
其他文献
融合主题及上下文特征的汉缅双语词汇抽取方法
- DOI:--
- 发表时间:2021
- 期刊:小型微型计算机系统
- 影响因子:--
- 作者:李越;毛存礼;余正涛;高盛祥;王振晗;张亚飞
- 通讯作者:张亚飞
基于知识蒸馏的缅甸语光学字符识别方法
- DOI:10.16337/j.1004-9037.2022.01.015
- 发表时间:2022
- 期刊:数据采集与处理
- 影响因子:--
- 作者:毛存礼;谢旭阳;余正涛;高盛祥;王振晗;刘福浩
- 通讯作者:刘福浩
基于扩散映射的太赫兹光谱识别
- DOI:--
- 发表时间:--
- 期刊:光谱学与光谱分析
- 影响因子:--
- 作者:沈韬;李灵杰;毛存礼;余正涛
- 通讯作者:余正涛
结合词向量和Bootstrapping的领域实体上下位关系获取与组织
- DOI:10.11896/j.issn.1002-137x.2018.01.010
- 发表时间:2018
- 期刊:计算机科学
- 影响因子:--
- 作者:马晓军;郭剑毅;线岩团;毛存礼;严馨;余正涛
- 通讯作者:余正涛
越南语短语树到依存树的转换研究
- DOI:--
- 发表时间:2016
- 期刊:计算机科学与探索
- 影响因子:--
- 作者:李英;郭剑毅;余正涛;毛存礼;线岩团
- 通讯作者:线岩团
其他文献
{{
item.title }}
{{ item.translation_title }}
- DOI:{{ item.doi || "--" }}
- 发表时间:{{ item.publish_year || "--"}}
- 期刊:{{ item.journal_name }}
- 影响因子:{{ item.factor || "--" }}
- 作者:{{ item.authors }}
- 通讯作者:{{ item.author }}
内容获取失败,请点击重试
查看分析示例
此项目为已结题,我已根据课题信息分析并撰写以下内容,帮您拓宽课题思路:
AI项目摘要
AI项目思路
AI技术路线图
请为本次AI项目解读的内容对您的实用性打分
非常不实用
非常实用
1
2
3
4
5
6
7
8
9
10
您认为此功能如何分析更能满足您的需求,请填写您的反馈:
毛存礼的其他基金
基于语言相似性的中-老-泰多语言神经机器翻译研究
- 批准号:62166023
- 批准年份:2021
- 资助金额:37 万元
- 项目类别:地区科学基金项目
越汉双语组块分析方法研究
- 批准号:61866019
- 批准年份:2018
- 资助金额:40.0 万元
- 项目类别:地区科学基金项目
相似国自然基金
{{ item.name }}
- 批准号:{{ item.ratify_no }}
- 批准年份:{{ item.approval_year }}
- 资助金额:{{ item.support_num }}
- 项目类别:{{ item.project_type }}
相似海外基金
{{
item.name }}
{{ item.translate_name }}
- 批准号:{{ item.ratify_no }}
- 财政年份:{{ item.approval_year }}
- 资助金额:{{ item.support_num }}
- 项目类别:{{ item.project_type }}