越汉双语组块分析方法研究

结题报告
项目介绍
AI项目解读

基本信息

  • 批准号:
    61866019
  • 项目类别:
    地区科学基金项目
  • 资助金额:
    40.0万
  • 负责人:
  • 依托单位:
  • 学科分类:
    F0606.自然语言处理
  • 结题年份:
    2022
  • 批准年份:
    2018
  • 项目状态:
    已结题
  • 起止时间:
    2019-01-01 至2022-12-31

项目摘要

Bilingual chunk analysis is the key and difficult point of Natural language processing(NLP), it is also the basis for the application of NLP. This research takes Vietnamese and Chinese as the object and can effectively deal with many tackled problems, such as chunk identification, inter-chunk relationship acquisition and bilingual chunk alignment for Vietnamese-Chinese chunk analysis. In chunk recognition, proposed a LSTM-CRF Vietnamese chunk identification method based on fusion of word segmentation and part of speech, taking the whole sentence likelihood function and improving the chunk recognition accuracy as the optimization target, finally to realize Vietnamese complex long sentence chunk identification; In the aspect of relationship between blocks recognition, proposed an Att-LSTM method fusion the semantic knowledge to prediction the relationship between block, joining some other types of contextual information in sentences that are important for relationship classification through the attentional mechanisms; In the Vietnamese-Han bilingual block alignment, to avoid lexical analysis, the dependencies between chunks and chunk features are applied to the Vietnamese-Han chunks alignment,and by exploring the complementarity of Vietnamese-Han chunks identification information, which can solve the problem of long distance dependence of bilingual chunks and improve the block alignment. The research achievements will be used to build the chunk analysis system and help to promote the application of information retrieval ,information extraction, machine translation,as well as knowledge-building.
双语组块分析是自然语言处理的关键和难点,也是自然语言处理应用系统的基础。本课题以越汉双语为对象,研究能有效处理越汉双语组块分析所面临的组块识别、块间关系获取和双语块对齐等关键技术。在组块识别方面,提出融合分词和词性特征的LSTM-CRF越南语组块识别方法,以提高组块识别精度为优化目标,实现越南语复杂长句组块识别;在块间依存关系识别方面,提出融合上下文信息的Att-LSTM块间依存关系获取方法,通过注意力机制加入对关系分类有重要意义的句子其他类型的上下文信息,实现块间关系的获取;在越汉双语组块对齐方面,提出融合块间依存关系和多特征的越汉双语组块对齐方法,避开词法分析这个瓶颈,结合双语组块间依存关系和相关特征,通过概率计算,发掘汉越组块识别信息的互补性,实现双语语块对齐。研究成果还将用于构建双语组块分析平台,有助于推动信息检索、信息抽取、机器翻译及知识构建等领域的应用。

结项摘要

在国家“一带一路”倡议和云南省南亚东南亚辐射中心建设大背景下,东南亚语言信息处理及机器翻译对促进面向东南亚国际政治经济文化的交流与合作有迫切需求。在当前以深度学习为主导的学习框架下,越南语、缅甸语等东南亚语言分词、词性标记、实体识别、依存句法分析以及中文-东南亚语言双语对齐语料获取还面临一系列难点问题需要解决。本课题将面向越南语、缅甸语等东南亚语言的词法、句法分析看作自然语言处理中的组块识别及块间关系识别问题,中文-越南语、缅甸语等东南亚语言的双语词对齐及句子对齐看作不同粒度的双语块对齐识别问题,研究取得了一系列创新性成果。在组块识别方面,针对越南语、缅甸语等东南亚语言分词、词性标记错误会造成线性传递等问题,提出了基于BiLSTM-CRF的音节切分、分词和POS标记的联合模型,基于改进多头注意力机制的命名实体识别等方法。在组块间依存关系识别方面,针对越南语、缅甸语存在大规模高质量的数据不足以及语义表示不准确的问题,提出基于迁移学习的东南亚语言依存句法分析模型,融合多粒度特征的低资源语言词性标记和依存分析联合模型等方法。在双语组块对齐方法研究方面,针对双语对齐块抽取准确度低的问题,提出了基于半监督的双语块对齐方法,基于结构特征一致性约束的双语句子级对齐块抽取等方法。基于以上方法构建了1000万余条双语块对齐语料库,为开展越南语、缅甸语等东南亚语言机器翻译研究及系统研发提供了重要的数据支撑。研发了适用于越南语、缅甸语等东南亚语的语言解析系统,成果已应用于OPPO、小牛翻译、小语智能信息科技等互联网相关企业,取得了较好的社会经济效益。课题研究发表相关论文16篇,其中SCI收录1篇,EI收录3篇,中文核心期刊9篇,会议论文4篇,受理发明专利13项,授权发明专利10项,登记软件著作权7项,培养硕士研究生10名。

项目成果

期刊论文数量(12)
专著数量(0)
科研奖励数量(0)
会议论文数量(4)
专利数量(13)
融合主题模型及双语词向量的汉缅双语可比文档获取方法
  • DOI:
    --
  • 发表时间:
    2021
  • 期刊:
    中文信息学报
  • 影响因子:
    --
  • 作者:
    李训宇;毛存礼;余正涛;高盛祥;王振晗;张亚飞
  • 通讯作者:
    张亚飞
Burmese Sentiment Analysis Based on Transfer Learning
基于迁移学习的缅甸语情感分析
  • DOI:
    10.3745/jips.04.0249
  • 发表时间:
    2022
  • 期刊:
    Journal of Information Processing Systems
  • 影响因子:
    1.6
  • 作者:
    Cunli Mao;Zhibo Man;Zhengtao Yu;Xia Wu;Haoyuan Liang
  • 通讯作者:
    Haoyuan Liang
融合主题及上下文特征的汉缅双语词汇抽取方法
  • DOI:
    --
  • 发表时间:
    2021
  • 期刊:
    小型微型计算机系统
  • 影响因子:
    --
  • 作者:
    李越;毛存礼;余正涛;高盛祥;王振晗;张亚飞
  • 通讯作者:
    张亚飞
基于知识蒸馏的缅甸语光学字符识别方法
  • DOI:
    10.16337/j.1004-9037.2022.01.015
  • 发表时间:
    2022
  • 期刊:
    数据采集与处理
  • 影响因子:
    --
  • 作者:
    毛存礼;谢旭阳;余正涛;高盛祥;王振晗;刘福浩
  • 通讯作者:
    刘福浩
基于多语言联合训练的汉-英-缅神经机器翻译方法
  • DOI:
    10.16511/j.cnki.qhdxxb.2021.22.003
  • 发表时间:
    2021
  • 期刊:
    清华大学学报(自然科学版)
  • 影响因子:
    --
  • 作者:
    Man Zhibo;Mao Cunli;Yu Zhengtao;LI Xunyu;Gao Shengxiang;Zhu Junguo
  • 通讯作者:
    Zhu Junguo

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi || "--"}}
  • 发表时间:
    {{ item.publish_year || "--" }}
  • 期刊:
    {{ item.journal_name }}
  • 影响因子:
    {{ item.factor || "--"}}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.authors }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.authors }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.authors }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.authors }}

数据更新时间:{{ patent.updateTime }}

其他文献

基于扩散映射的太赫兹光谱识别
  • DOI:
    --
  • 发表时间:
    --
  • 期刊:
    光谱学与光谱分析
  • 影响因子:
    --
  • 作者:
    沈韬;李灵杰;毛存礼;余正涛
  • 通讯作者:
    余正涛
融合主题及上下文特征的汉缅双语词汇抽取方法
  • DOI:
    --
  • 发表时间:
    2021
  • 期刊:
    小型微型计算机系统
  • 影响因子:
    --
  • 作者:
    李越;毛存礼;余正涛;高盛祥;王振晗;张亚飞
  • 通讯作者:
    张亚飞
越南语短语树到依存树的转换研究
  • DOI:
    --
  • 发表时间:
    2016
  • 期刊:
    计算机科学与探索
  • 影响因子:
    --
  • 作者:
    李英;郭剑毅;余正涛;毛存礼;线岩团
  • 通讯作者:
    线岩团
结合词向量和Bootstrapping的领域实体上下位关系获取与组织
  • DOI:
    10.11896/j.issn.1002-137x.2018.01.010
  • 发表时间:
    2018
  • 期刊:
    计算机科学
  • 影响因子:
    --
  • 作者:
    马晓军;郭剑毅;线岩团;毛存礼;严馨;余正涛
  • 通讯作者:
    余正涛
基于深层神经网络(DNN)的汉-越双语词语对齐方法
  • DOI:
    --
  • 发表时间:
    2016
  • 期刊:
    山东大学学报(理学版)
  • 影响因子:
    --
  • 作者:
    莫媛媛;郭剑毅;余正涛;毛存礼;牛翊童
  • 通讯作者:
    牛翊童

其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi || "--" }}
  • 发表时间:
    {{ item.publish_year || "--"}}
  • 期刊:
    {{ item.journal_name }}
  • 影响因子:
    {{ item.factor || "--" }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}
empty
内容获取失败,请点击重试
重试联系客服
title开始分析
查看分析示例
此项目为已结题,我已根据课题信息分析并撰写以下内容,帮您拓宽课题思路:

AI项目思路

AI技术路线图

毛存礼的其他基金

基于语言相似性的中-老-泰多语言神经机器翻译研究
  • 批准号:
    62166023
  • 批准年份:
    2021
  • 资助金额:
    37 万元
  • 项目类别:
    地区科学基金项目
基于互联网的汉语-缅语双语平行语料抽取方法及语料库构建
  • 批准号:
    61662041
  • 批准年份:
    2016
  • 资助金额:
    40.0 万元
  • 项目类别:
    地区科学基金项目

相似国自然基金

{{ item.name }}
  • 批准号:
    {{ item.ratify_no }}
  • 批准年份:
    {{ item.approval_year }}
  • 资助金额:
    {{ item.support_num }}
  • 项目类别:
    {{ item.project_type }}

相似海外基金

{{ item.name }}
{{ item.translate_name }}
  • 批准号:
    {{ item.ratify_no }}
  • 财政年份:
    {{ item.approval_year }}
  • 资助金额:
    {{ item.support_num }}
  • 项目类别:
    {{ item.project_type }}
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了

AI项目解读示例

课题项目:调控A型流感病毒诱导IFN-β表达的机制研究

AI项目摘要:

本研究聚焦于TRIM2蛋白在A型流感病毒诱导的IFN-β表达中的调控机制。A型流感病毒是全球性健康问题,其感染可导致严重的呼吸道疾病。IFN-β作为关键的抗病毒因子,其表达水平对抗病毒防御至关重要。然而,TRIM2如何调控IFN-β的表达尚未明确。本研究假设TRIM2通过与病毒RNA或宿主因子相互作用,影响IFN-β的产生。我们将采用分子生物学、细胞生物学和免疫学方法,探索TRIM2与A型流感病毒诱导IFN-β表达的关系。预期结果将揭示TRIM2在抗病毒免疫反应中的作用,为开发新的抗病毒策略提供理论基础。该研究对理解宿主抗病毒机制具有重要科学意义,并可能对临床治疗流感病毒感染提供新的视角。

AI项目思路:

科学问题:TRIM2如何调控A型流感病毒诱导的IFN-β表达?
前期研究:已有研究表明TRIM2参与抗病毒反应,但其具体机制尚不明确。
研究创新点:本研究将深入探讨TRIM2在IFN-β表达中的直接作用机制。
技术路线:包括病毒学、分子生物学、细胞培养和免疫检测技术。
关键技术:TRIM2与病毒RNA的相互作用分析,IFN-β启动子活性检测。
实验模型:使用A型流感病毒感染的细胞模型进行研究。

AI技术路线图

        graph TD
          A[研究起始] --> B[文献回顾与假设提出]
          B --> C[实验设计与方法学准备]
          C --> D[A型流感病毒感染模型建立]
          D --> E[TRIM2与病毒RNA相互作用分析]
          E --> F[TRIM2对IFN-β启动子活性的影响]
          F --> G[IFN-β表达水平测定]
          G --> H[TRIM2功能丧失与获得研究]
          H --> I[数据收集与分析]
          I --> J[结果解释与科学验证]
          J --> K[研究结论与未来方向]
          K --> L[研究结束]
      
关闭
close
客服二维码