面向维基百科的多粒度一体化信息抽取方法研究

结题报告
项目介绍
AI项目解读

基本信息

  • 批准号:
    61103112
  • 项目类别:
    青年科学基金项目
  • 资助金额:
    22.0万
  • 负责人:
  • 依托单位:
  • 学科分类:
    F0211.信息检索与社会计算
  • 结题年份:
    2014
  • 批准年份:
    2011
  • 项目状态:
    已结题
  • 起止时间:
    2012-01-01 至2014-12-31

项目摘要

维基百科拥有庞大高质量语料资源,抽取维基百科并形成结构化知识具有重要意义。本项目系统研究面向维基百科的信息抽取问题,提出多粒度一体化信息抽取方法,思路是把维基页面按页面结构分割成多个信息单元,并以信息单元为横坐标,抽取的粒度知识为纵坐标,纵向进行多粒度抽取,横向进行一体化抽取。具体从多粒度、一体化和信息组织三方面展开,研究内容包括:(1)多粒度信息抽取。针对每个信息单元,从粗粒度到细粒度进行分层抽取,重点解决细粒度知识抽取问题。(2)一体化信息抽取。针对每种类型的粒度知识,选取所有抽取该粒度知识的信息单元,充分考虑不同信息单元之间知识与结构等方面的参照作用,进行一体化研究,提高信息抽取效果。(3)抽取结果的信息组织。运用本体方法组织抽取结果,建立维基概念的层次网络,形成一套完整的知识体系。研究成果作为基础资源进行信息服务,对自然语言处理相关领域的研究具有重要应用价值。

结项摘要

本课题面向维基百科进行信息抽取,研究了多粒度知识的抽取技术与组织方法,包括双语词汇、人名属性、语义关联关系、查询分类关系等,并由此发展了一系列信息挖掘与知识组织方法,形成基础语言知识库。主要贡献如下:①双语词汇挖掘:针对维基百科的领域覆盖率和结构特征,提出在维基百科页面中自动获取高质量中英文翻译对的模板挖掘方法,能够发现人工不容易察觉的复杂模板。②人名属性挖掘:提出运用网络查询日志和维基百科知识构建人名知识库,并应用于查询分类。通过抽取查询日志中的人名实体,并结合百科知识充实实体属性知识,形成包含属性知识的人名知识库。根据高质量的属性模板和统计分类方法对查询中的人名进行分类,在查询推荐中依据不同人物分类知识库进行分类推荐。③语义关联关系挖掘:提出了一种基于维基百科的计算命名实体关联度的方法,该方法充分利用了维基百科中的超链接信息,通过命名实体的维基百科页面含有的共现超链接计算得到命名实体的关联度.通过与人工标注的命名实体关联度进行对比,该方法计算得到的命名实体的关联度具有较高的准确率,计算结果与人们认知结果基本吻合。④查询分类关系挖掘:查询分类需要建立查询意图的分类知识体系,提出基于随机游走方式的查询分类知识挖掘方法,首先抽取维基百科中的全部词条与分类知识形成集合,并采用随机游走方式遍历图中所有概念结点,得到每个结点的概率分布,并将其转化成分类权重,最终构建查询知识链接图。该方法借助维基百科能够解决数据稀疏问题。⑤知识组织:运用基于本体的分类知识管理方法,通过本体来表示分类知识,使得分类知识之间的关系以及知识的属性能够完整的表示出来。同时将本体的表示的分类知识利用OWL文档进行存储。项目研究成果包括:发表3篇EI期刊论文、14篇核心期刊论文,其中单篇论文引用率最高已达到13次;形成了基于维基百科的语言知识库,可进行知识服务,具有很好的应用价值;申请人入选北京市青年拔尖人才计划,指导的1名研究生获得北京市优秀毕业研究生称号。

项目成果

期刊论文数量(17)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
基于句法语义的网络舆论情感倾向性评价技术研究
  • DOI:
    --
  • 发表时间:
    2012
  • 期刊:
    情报杂志
  • 影响因子:
    --
  • 作者:
    段建勇;谢宇超;张梅
  • 通讯作者:
    张梅
维基百科中翻译对的模板挖掘方法研究
  • DOI:
    --
  • 发表时间:
    --
  • 期刊:
    中文信息学报
  • 影响因子:
    --
  • 作者:
    段建勇;闫启伟;张梅;胡熠
  • 通讯作者:
    胡熠
基于维基百科的中文命名实体关联度计算
  • DOI:
    10.1038/nature11650
  • 发表时间:
    2012
  • 期刊:
    北方工业大学学报
  • 影响因子:
    --
  • 作者:
    刘高军;马砚忠;段建勇
  • 通讯作者:
    段建勇
Query classification by exploiting wikipedia and web knowledge
利用维基百科和网络知识查询分类
  • DOI:
    10.1016/j.jalgebra.2021.08.019
  • 发表时间:
    2013
  • 期刊:
    ICIC Express Letters, Part B: Applications
  • 影响因子:
    --
  • 作者:
    Duan Jianyong;Zhang Mei;Liu Hui
  • 通讯作者:
    Liu Hui
搜索引擎的一种在线中文查询纠错方法
  • DOI:
    --
  • 发表时间:
    --
  • 期刊:
    中文信息学报
  • 影响因子:
    --
  • 作者:
    胡熠;刘云峰;杨海松;张小鹏;段建勇
  • 通讯作者:
    段建勇

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi || "--"}}
  • 发表时间:
    {{ item.publish_year || "--" }}
  • 期刊:
    {{ item.journal_name }}
  • 影响因子:
    {{ item.factor || "--"}}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.authors }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.authors }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.authors }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.authors }}

数据更新时间:{{ patent.updateTime }}

其他文献

煤工尘肺患者肺灌洗液中肺泡巨噬细胞自噬活动的研究
  • DOI:
    --
  • 发表时间:
    2015
  • 期刊:
    中华劳动卫生职业病杂志
  • 影响因子:
    --
  • 作者:
    姚三巧;朱丽;段建勇;袁聚祥
  • 通讯作者:
    袁聚祥
基于Transformer局部信息及语法增强架构的中文拼写纠错方法
  • DOI:
    --
  • 发表时间:
    2020
  • 期刊:
    北京大学学报(自然科学版)
  • 影响因子:
    --
  • 作者:
    段建勇;袁阳;王昊
  • 通讯作者:
    王昊
基于丰富特征提取的句子语义等价识别研究
  • DOI:
    --
  • 发表时间:
    --
  • 期刊:
    小型微型计算机系统
  • 影响因子:
    --
  • 作者:
    刘高军;寇婕;段建勇
  • 通讯作者:
    段建勇

其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi || "--" }}
  • 发表时间:
    {{ item.publish_year || "--"}}
  • 期刊:
    {{ item.journal_name }}
  • 影响因子:
    {{ item.factor || "--" }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}
empty
内容获取失败,请点击重试
重试联系客服
title开始分析
查看分析示例
此项目为已结题,我已根据课题信息分析并撰写以下内容,帮您拓宽课题思路:

AI项目思路

AI技术路线图

段建勇的其他基金

面向新闻事件的查询时效性计算模型研究
  • 批准号:
    61972003
  • 批准年份:
    2019
  • 资助金额:
    59 万元
  • 项目类别:
    面上项目
基于多源特征学习的中文查询纠错方法研究
  • 批准号:
    61672040
  • 批准年份:
    2016
  • 资助金额:
    62.0 万元
  • 项目类别:
    面上项目

相似国自然基金

{{ item.name }}
  • 批准号:
    {{ item.ratify_no }}
  • 批准年份:
    {{ item.approval_year }}
  • 资助金额:
    {{ item.support_num }}
  • 项目类别:
    {{ item.project_type }}

相似海外基金

{{ item.name }}
{{ item.translate_name }}
  • 批准号:
    {{ item.ratify_no }}
  • 财政年份:
    {{ item.approval_year }}
  • 资助金额:
    {{ item.support_num }}
  • 项目类别:
    {{ item.project_type }}
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了

AI项目解读示例

课题项目:调控A型流感病毒诱导IFN-β表达的机制研究

AI项目摘要:

本研究聚焦于TRIM2蛋白在A型流感病毒诱导的IFN-β表达中的调控机制。A型流感病毒是全球性健康问题,其感染可导致严重的呼吸道疾病。IFN-β作为关键的抗病毒因子,其表达水平对抗病毒防御至关重要。然而,TRIM2如何调控IFN-β的表达尚未明确。本研究假设TRIM2通过与病毒RNA或宿主因子相互作用,影响IFN-β的产生。我们将采用分子生物学、细胞生物学和免疫学方法,探索TRIM2与A型流感病毒诱导IFN-β表达的关系。预期结果将揭示TRIM2在抗病毒免疫反应中的作用,为开发新的抗病毒策略提供理论基础。该研究对理解宿主抗病毒机制具有重要科学意义,并可能对临床治疗流感病毒感染提供新的视角。

AI项目思路:

科学问题:TRIM2如何调控A型流感病毒诱导的IFN-β表达?
前期研究:已有研究表明TRIM2参与抗病毒反应,但其具体机制尚不明确。
研究创新点:本研究将深入探讨TRIM2在IFN-β表达中的直接作用机制。
技术路线:包括病毒学、分子生物学、细胞培养和免疫检测技术。
关键技术:TRIM2与病毒RNA的相互作用分析,IFN-β启动子活性检测。
实验模型:使用A型流感病毒感染的细胞模型进行研究。

AI技术路线图

        graph TD
          A[研究起始] --> B[文献回顾与假设提出]
          B --> C[实验设计与方法学准备]
          C --> D[A型流感病毒感染模型建立]
          D --> E[TRIM2与病毒RNA相互作用分析]
          E --> F[TRIM2对IFN-β启动子活性的影响]
          F --> G[IFN-β表达水平测定]
          G --> H[TRIM2功能丧失与获得研究]
          H --> I[数据收集与分析]
          I --> J[结果解释与科学验证]
          J --> K[研究结论与未来方向]
          K --> L[研究结束]
      
关闭
close
客服二维码