藏语命名实体识别关键技术研究

结题报告
项目介绍
AI项目解读

基本信息

  • 批准号:
    61303165
  • 项目类别:
    青年科学基金项目
  • 资助金额:
    22.0万
  • 负责人:
  • 依托单位:
  • 学科分类:
    F0211.信息检索与社会计算
  • 结题年份:
    2016
  • 批准年份:
    2013
  • 项目状态:
    已结题
  • 起止时间:
    2014-01-01 至2016-12-31

项目摘要

Named Entity (NE) recognition plays an important role on natural language processing such as information extraction, syntactic analysis and cross-language retrieval. However, Tibetan NE recognition with higher precision is still an unresolved problem because of inadequate data resources and the limitation of existing recognition algorithms. We propose a fast and efficient Tibetan NE recognition framework with higher precision by analyzing the internal and external features of the Tibetan person name, location name, and organization names. The recognition framework combines the advantages of rule-based with statistical-based recognition methods. Firstly, we build organization name knowledge base from large-scale Tibetan corpus and Chinese-Tibetan transliteration correspondence knowledge base from Chinese-Tibetan aligned corpus using machine learning algorithms. These two knowledge bases are helpful to improve the accuracy of Tibetan NE recognition. Secondly, we adopt a hierarchical Tibetan named entity recognition method and integrate simple and complex named entity into a unified framework. We also study parameter learning methods for multiple models within our recognition framework. Eventually, Tibetan organization name knowledge base, Chinese-Tibetan transliteration correspondence knowledge base and Tibetan named entity labeled corpus lay the research foundation for Tibetan natural language processing.
命名实体识别技术是信息抽取、句法分析、跨语言检索等自然语言处理领域研究的前导技术和难题。藏文在自然语言处理方面研究起步比较晚,基础研究薄弱,当前尚未完全解决藏语命名实体高精度自动识别问题。本项目以藏语命名实体为研究对象,通过分析藏语人名、地名、机构名的内部和外部特征,充分结合规则和统计方法的优点,提出一种适合藏语自身的快速、高效、精准的藏语命名实体识别框架。首先,基于机器学习算法分别从大规模藏语语料和汉藏对齐语料中构建机构名识别知识库和汉藏对应的音译对照统计库,改进藏语命名实体识别的精度;其次,研究基于层次式机器学习模型的藏语命名实体识别方法,将简单和复杂命名实体集中在统一识别框架下,研究多个子模型的参数学习方法;本项目将建立藏语机构名识别知识库、汉藏对应的音译对照统计库、藏语命名实体标注语料,为藏语自然语言处理的研究提供基础。

结项摘要

语料库和语言知识库作为基本的资源,它们在不同层面构成了各种自然语言处理方法赖以实现的基础。命名实体是文本中基本的信息单位,是正确理解文本的基础。命名实体识别属于自然语言处理的基础研究领域,它的研究成果将直接影响到文本信息自动化处理的深层次研究。本项目在工作组已经收集整理的互联网藏文文本资源为基础,在藏语人名、地名和机构名以及未登录词识别等方面开展了研究,取得了一系列的成果。.本项目着手研究基于层叠条件随机场模型的藏语命名实体识别方法。该方法在低层条件随机场中以音节为切分粒度,结合汉族姓氏表、汉族人名常用字表、藏语地名常用后缀表、藏语地名常用字表等特征词典,实现简单命名实体的识别;其识别结果传递到高层模型,以词为切分粒度,结合复杂特征,实现嵌套地名和机构名等复杂命名实体识别。进一步根据藏语机构名的语法特性,总结出简单机构名和复合机构名的构成规律,设计了有效的识别规则和相应的知识库,优化了藏语机构名的识别结果。应用CRF模型还是会漏标注部分命名实体,针对未登录的实体,我们先应用语料中“自然标注”识别出一部分未登录词,进一步通过词缀归并方法以及基于统计的SEC算法从预切分的分词碎片中发现未登录词,补充CRF的标注结果。.本项目建立的一系列的词典以及知识库为藏文信息处理的研究提供基础资源。截止到项目结题前后,共收录162个机构名特征词,1034个机构名修饰词,建立了包含1317个机构名的藏语机构名词典。汉藏对照命名实体规模达1万多条,通过命名实体识别软件标注好的语料规模为9.8万句子。.除了上述研究内容以外,我们还在藏语未登录词识别、大粒度的汉藏双语短语对抽取、多策略融合的汉藏机器翻译、藏语句法树库等方面也开展了研究工作。.本项目开发了藏文命名实体识别原型系统,申请软件著作权登记6项。申请发明专利4项,其中获得授权2项。发表国内期刊论文6篇,高水平国际会议论文4篇,国内学术会议论文3篇,另外参与2篇国际会议论文研发工作。

项目成果

期刊论文数量(6)
专著数量(0)
科研奖励数量(0)
会议论文数量(9)
专利数量(0)
藏文编码字符集标准应用中的问题及对策
  • DOI:
    --
  • 发表时间:
    2016
  • 期刊:
    标准化研究
  • 影响因子:
    --
  • 作者:
    刘汇丹;安波;才华;吴健
  • 通讯作者:
    吴健
Web藏文文本资源挖掘与利用研究
  • DOI:
    --
  • 发表时间:
    2015
  • 期刊:
    中文信息学报
  • 影响因子:
    --
  • 作者:
    诺明花;马龙龙;吴健;贺也平
  • 通讯作者:
    贺也平
传统蒙古文“同形不同码”问题研究
  • DOI:
    --
  • 发表时间:
    2015
  • 期刊:
    信息技术与标准化
  • 影响因子:
    --
  • 作者:
    诺明花;吴健;刘汇丹;马龙龙
  • 通讯作者:
    马龙龙
基于藏语字性标注的词性预测研究
  • DOI:
    --
  • 发表时间:
    2015
  • 期刊:
    中文信息学报
  • 影响因子:
    --
  • 作者:
    龙从军;刘汇丹;诺明花;吴健
  • 通讯作者:
    吴健
基于网络资源的藏文未登录词识别方法
  • DOI:
    --
  • 发表时间:
    2016
  • 期刊:
    中国民族语言研究与应用
  • 影响因子:
    --
  • 作者:
    诺明花;刘汇丹;吴健
  • 通讯作者:
    吴健

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi || "--"}}
  • 发表时间:
    {{ item.publish_year || "--" }}
  • 期刊:
    {{ item.journal_name }}
  • 影响因子:
    {{ item.factor || "--"}}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.authors }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.authors }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.authors }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.authors }}

数据更新时间:{{ patent.updateTime }}

其他文献

基于大规模网络语料的藏文音节拼写错误统计与分析
  • DOI:
    --
  • 发表时间:
    --
  • 期刊:
    中文信息学报
  • 影响因子:
    --
  • 作者:
    刘汇丹;洪锦玲;诺明花;吴健
  • 通讯作者:
    吴健

其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi || "--" }}
  • 发表时间:
    {{ item.publish_year || "--"}}
  • 期刊:
    {{ item.journal_name }}
  • 影响因子:
    {{ item.factor || "--" }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}
empty
内容获取失败,请点击重试
重试联系客服
title开始分析
查看分析示例
此项目为已结题,我已根据课题信息分析并撰写以下内容,帮您拓宽课题思路:

AI项目思路

AI技术路线图

诺明花的其他基金

低资源场景下蒙古文文化旅游知识图谱问答关键技术研究
  • 批准号:
    62366038
  • 批准年份:
    2023
  • 资助金额:
    33 万元
  • 项目类别:
    地区科学基金项目
面向旅游领域的蒙古文知识图谱构建关键技术研究
  • 批准号:
    61966025
  • 批准年份:
    2019
  • 资助金额:
    38 万元
  • 项目类别:
    地区科学基金项目

相似国自然基金

{{ item.name }}
  • 批准号:
    {{ item.ratify_no }}
  • 批准年份:
    {{ item.approval_year }}
  • 资助金额:
    {{ item.support_num }}
  • 项目类别:
    {{ item.project_type }}

相似海外基金

{{ item.name }}
{{ item.translate_name }}
  • 批准号:
    {{ item.ratify_no }}
  • 财政年份:
    {{ item.approval_year }}
  • 资助金额:
    {{ item.support_num }}
  • 项目类别:
    {{ item.project_type }}
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了

AI项目解读示例

课题项目:调控A型流感病毒诱导IFN-β表达的机制研究

AI项目摘要:

本研究聚焦于TRIM2蛋白在A型流感病毒诱导的IFN-β表达中的调控机制。A型流感病毒是全球性健康问题,其感染可导致严重的呼吸道疾病。IFN-β作为关键的抗病毒因子,其表达水平对抗病毒防御至关重要。然而,TRIM2如何调控IFN-β的表达尚未明确。本研究假设TRIM2通过与病毒RNA或宿主因子相互作用,影响IFN-β的产生。我们将采用分子生物学、细胞生物学和免疫学方法,探索TRIM2与A型流感病毒诱导IFN-β表达的关系。预期结果将揭示TRIM2在抗病毒免疫反应中的作用,为开发新的抗病毒策略提供理论基础。该研究对理解宿主抗病毒机制具有重要科学意义,并可能对临床治疗流感病毒感染提供新的视角。

AI项目思路:

科学问题:TRIM2如何调控A型流感病毒诱导的IFN-β表达?
前期研究:已有研究表明TRIM2参与抗病毒反应,但其具体机制尚不明确。
研究创新点:本研究将深入探讨TRIM2在IFN-β表达中的直接作用机制。
技术路线:包括病毒学、分子生物学、细胞培养和免疫检测技术。
关键技术:TRIM2与病毒RNA的相互作用分析,IFN-β启动子活性检测。
实验模型:使用A型流感病毒感染的细胞模型进行研究。

AI技术路线图

        graph TD
          A[研究起始] --> B[文献回顾与假设提出]
          B --> C[实验设计与方法学准备]
          C --> D[A型流感病毒感染模型建立]
          D --> E[TRIM2与病毒RNA相互作用分析]
          E --> F[TRIM2对IFN-β启动子活性的影响]
          F --> G[IFN-β表达水平测定]
          G --> H[TRIM2功能丧失与获得研究]
          H --> I[数据收集与分析]
          I --> J[结果解释与科学验证]
          J --> K[研究结论与未来方向]
          K --> L[研究结束]
      
关闭
close
客服二维码