面向维基百科的多粒度一体化信息抽取方法研究
项目介绍
AI项目解读
基本信息
- 批准号:61103112
- 项目类别:青年科学基金项目
- 资助金额:22.0万
- 负责人:
- 依托单位:
- 学科分类:F0211.信息检索与社会计算
- 结题年份:2014
- 批准年份:2011
- 项目状态:已结题
- 起止时间:2012-01-01 至2014-12-31
- 项目参与者:吴明礼; 张梅; 吴洁明; 高振安; 朱银涛; 李俊;
- 关键词:
项目摘要
维基百科拥有庞大高质量语料资源,抽取维基百科并形成结构化知识具有重要意义。本项目系统研究面向维基百科的信息抽取问题,提出多粒度一体化信息抽取方法,思路是把维基页面按页面结构分割成多个信息单元,并以信息单元为横坐标,抽取的粒度知识为纵坐标,纵向进行多粒度抽取,横向进行一体化抽取。具体从多粒度、一体化和信息组织三方面展开,研究内容包括:(1)多粒度信息抽取。针对每个信息单元,从粗粒度到细粒度进行分层抽取,重点解决细粒度知识抽取问题。(2)一体化信息抽取。针对每种类型的粒度知识,选取所有抽取该粒度知识的信息单元,充分考虑不同信息单元之间知识与结构等方面的参照作用,进行一体化研究,提高信息抽取效果。(3)抽取结果的信息组织。运用本体方法组织抽取结果,建立维基概念的层次网络,形成一套完整的知识体系。研究成果作为基础资源进行信息服务,对自然语言处理相关领域的研究具有重要应用价值。
结项摘要
本课题面向维基百科进行信息抽取,研究了多粒度知识的抽取技术与组织方法,包括双语词汇、人名属性、语义关联关系、查询分类关系等,并由此发展了一系列信息挖掘与知识组织方法,形成基础语言知识库。主要贡献如下:①双语词汇挖掘:针对维基百科的领域覆盖率和结构特征,提出在维基百科页面中自动获取高质量中英文翻译对的模板挖掘方法,能够发现人工不容易察觉的复杂模板。②人名属性挖掘:提出运用网络查询日志和维基百科知识构建人名知识库,并应用于查询分类。通过抽取查询日志中的人名实体,并结合百科知识充实实体属性知识,形成包含属性知识的人名知识库。根据高质量的属性模板和统计分类方法对查询中的人名进行分类,在查询推荐中依据不同人物分类知识库进行分类推荐。③语义关联关系挖掘:提出了一种基于维基百科的计算命名实体关联度的方法,该方法充分利用了维基百科中的超链接信息,通过命名实体的维基百科页面含有的共现超链接计算得到命名实体的关联度.通过与人工标注的命名实体关联度进行对比,该方法计算得到的命名实体的关联度具有较高的准确率,计算结果与人们认知结果基本吻合。④查询分类关系挖掘:查询分类需要建立查询意图的分类知识体系,提出基于随机游走方式的查询分类知识挖掘方法,首先抽取维基百科中的全部词条与分类知识形成集合,并采用随机游走方式遍历图中所有概念结点,得到每个结点的概率分布,并将其转化成分类权重,最终构建查询知识链接图。该方法借助维基百科能够解决数据稀疏问题。⑤知识组织:运用基于本体的分类知识管理方法,通过本体来表示分类知识,使得分类知识之间的关系以及知识的属性能够完整的表示出来。同时将本体的表示的分类知识利用OWL文档进行存储。项目研究成果包括:发表3篇EI期刊论文、14篇核心期刊论文,其中单篇论文引用率最高已达到13次;形成了基于维基百科的语言知识库,可进行知识服务,具有很好的应用价值;申请人入选北京市青年拔尖人才计划,指导的1名研究生获得北京市优秀毕业研究生称号。
项目成果
期刊论文数量(17)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
基于句法语义的网络舆论情感倾向性评价技术研究
- DOI:--
- 发表时间:2012
- 期刊:情报杂志
- 影响因子:--
- 作者:段建勇;谢宇超;张梅
- 通讯作者:张梅
维基百科中翻译对的模板挖掘方法研究
- DOI:--
- 发表时间:--
- 期刊:中文信息学报
- 影响因子:--
- 作者:段建勇;闫启伟;张梅;胡熠
- 通讯作者:胡熠
基于维基百科的中文命名实体关联度计算
- DOI:10.1038/nature11650
- 发表时间:2012
- 期刊:北方工业大学学报
- 影响因子:--
- 作者:刘高军;马砚忠;段建勇
- 通讯作者:段建勇
Query classification by exploiting wikipedia and web knowledge
利用维基百科和网络知识查询分类
- DOI:10.1016/j.jalgebra.2021.08.019
- 发表时间:2013
- 期刊:ICIC Express Letters, Part B: Applications
- 影响因子:--
- 作者:Duan Jianyong;Zhang Mei;Liu Hui
- 通讯作者:Liu Hui
搜索引擎的一种在线中文查询纠错方法
- DOI:--
- 发表时间:--
- 期刊:中文信息学报
- 影响因子:--
- 作者:胡熠;刘云峰;杨海松;张小鹏;段建勇
- 通讯作者:段建勇
数据更新时间:{{ journalArticles.updateTime }}
{{
item.title }}
{{ item.translation_title }}
- DOI:{{ item.doi || "--"}}
- 发表时间:{{ item.publish_year || "--" }}
- 期刊:{{ item.journal_name }}
- 影响因子:{{ item.factor || "--"}}
- 作者:{{ item.authors }}
- 通讯作者:{{ item.author }}
数据更新时间:{{ journalArticles.updateTime }}
{{ item.title }}
- 作者:{{ item.authors }}
数据更新时间:{{ monograph.updateTime }}
{{ item.title }}
- 作者:{{ item.authors }}
数据更新时间:{{ sciAawards.updateTime }}
{{ item.title }}
- 作者:{{ item.authors }}
数据更新时间:{{ conferencePapers.updateTime }}
{{ item.title }}
- 作者:{{ item.authors }}
数据更新时间:{{ patent.updateTime }}
其他文献
煤工尘肺患者肺灌洗液中肺泡巨噬细胞自噬活动的研究
- DOI:--
- 发表时间:2015
- 期刊:中华劳动卫生职业病杂志
- 影响因子:--
- 作者:姚三巧;朱丽;段建勇;袁聚祥
- 通讯作者:袁聚祥
基于Transformer局部信息及语法增强架构的中文拼写纠错方法
- DOI:--
- 发表时间:2020
- 期刊:北京大学学报(自然科学版)
- 影响因子:--
- 作者:段建勇;袁阳;王昊
- 通讯作者:王昊
基于丰富特征提取的句子语义等价识别研究
- DOI:--
- 发表时间:--
- 期刊:小型微型计算机系统
- 影响因子:--
- 作者:刘高军;寇婕;段建勇
- 通讯作者:段建勇
其他文献
{{
item.title }}
{{ item.translation_title }}
- DOI:{{ item.doi || "--" }}
- 发表时间:{{ item.publish_year || "--"}}
- 期刊:{{ item.journal_name }}
- 影响因子:{{ item.factor || "--" }}
- 作者:{{ item.authors }}
- 通讯作者:{{ item.author }}
内容获取失败,请点击重试
查看分析示例
此项目为已结题,我已根据课题信息分析并撰写以下内容,帮您拓宽课题思路:
AI项目摘要
AI项目思路
AI技术路线图
请为本次AI项目解读的内容对您的实用性打分
非常不实用
非常实用
1
2
3
4
5
6
7
8
9
10
您认为此功能如何分析更能满足您的需求,请填写您的反馈:
段建勇的其他基金
面向新闻事件的查询时效性计算模型研究
- 批准号:61972003
- 批准年份:2019
- 资助金额:59 万元
- 项目类别:面上项目
基于多源特征学习的中文查询纠错方法研究
- 批准号:61672040
- 批准年份:2016
- 资助金额:62.0 万元
- 项目类别:面上项目
相似国自然基金
{{ item.name }}
- 批准号:{{ item.ratify_no }}
- 批准年份:{{ item.approval_year }}
- 资助金额:{{ item.support_num }}
- 项目类别:{{ item.project_type }}
相似海外基金
{{
item.name }}
{{ item.translate_name }}
- 批准号:{{ item.ratify_no }}
- 财政年份:{{ item.approval_year }}
- 资助金额:{{ item.support_num }}
- 项目类别:{{ item.project_type }}