基于主题形式概念分析的文本处理关键技术研究
项目介绍
AI项目解读
基本信息
- 批准号:61502033
- 项目类别:青年科学基金项目
- 资助金额:20.0万
- 负责人:
- 依托单位:
- 学科分类:F0607.知识表示与处理
- 结题年份:2018
- 批准年份:2015
- 项目状态:已结题
- 起止时间:2016-01-01 至2018-12-31
- 项目参与者:曾伟鸿; 郭贵锁; 张奇; 郝戍峰; 陈张; 樊静;
- 关键词:
项目摘要
Since Formal Concept Analysis-based text processing always uses keywords as the attributes of formal context, and there exist the correlation, overlap, and repetition between keywords, and the attributes usually remain with mixtures of topics which will lead to the result of text mining does not meet the special information requirements from users. Furthermore, concept lattice’s building on large scale text dataset is time and space consuming. According to the above situations, we combine LDA probabilistic topic model into Formal Concept Analysis. First, we define a textual topical Formal Concept Analysis model in which the attributes can be calculated by probabilistic topic model which can express the attributes’ semantic metric own to some topic or topics in real text mining. And the formal concepts in the lattice built by topics have its joint probabilistic of topic(s) with which we can develop a method to evaluate the importance or typicality of the formal concepts. Second, a distributed processing model is designed, including the decomposition of formal context by topic and the union of several sub concept lattices, which can improve the efficiency of lattice’s construction. At last, with the query result from scholar search engine, we propose a multi-document abstract construction framework based on the proposed model which can fulfill the request of presenting a text summarization with special topic purpose and enough content covering.
针对目前基于形式概念分析的文本处理主要使用关键词作为形式背景属性,属性之间存在关联、重叠、重复且属性内容不区分主题,导致无法满足特定目标或主题的文本挖掘需求,以及规模化文本概念格构建时间长、单格耗费空间多等问题,本课题研究引入LDA主题模型构建形式背景,设计一个基于主题形式概念分析的文本处理模型。首先,利用主题比关键词信息粒度大且更能表达文本语义信息的优点,使用概率主题模型计算并构成文本数据的形式背景,设计形式概念在概念格上下文中的主题联合分布模型,表达形式概念的典型性或重要性;其次,设计一个分布式概念格构建模型,按主题对形式背景进行分解,对分解背景构成的概念格进行多格同时合并,达到多主题概念融合,并能够提升概念格构建效率;最后,结合学术论文检索,使用主题形式概念分析模型,提出一种基于查询结果集的多文档摘要构建框架,以满足特定主题要求的摘要内容表达及覆盖。
结项摘要
由于传统的形式概念分析通常使用单值形式背景进行数据分析,无法反映现实数据属性的复杂性,本课题研究将LDA模型引入形式概念分析,针对文本数据处理,构建一个文本主题形式概念分析模型,依靠此模型,研究解决前文提出的形式概念分析在文本处理中出现的若干问题,以帮助形式概念分析在文本处理中有更广泛的应用。包括:提出一个文本数据模糊形式背景生成模型,构建主题模糊概念格,设计形式概念的主题分布数学模型,以表达形式概念在概念格上下文中的典型性或重要性,可用于精炼文本概念格,挖掘核心主题知识;针对规模化文本数据,设计基于主题的形式背景分解和概念格合并算法,降低概念格构建过程的时间和空间耗费;最后,针对学术论文检索结果集,利用主题模糊形式概念分析模型,提出一种论文摘要和检索框架。结合上述研究内容,本课题获得的研究成果在CCF顶级期刊TKDE,中科院SCI 2区期刊EAAI,CCF B类会议ECAI等顶级期刊和会议上发表,累计6篇论文(第一标注),并获批专利1项,申请专利1项。文本主题模糊概念格模型提供了一个基于LDA主题模型生成模糊形式背景的系统性途径,可以合理的利用主题来组织形式背景并构建概念格,符合用户对特定信息的要求,形式背景的分解和概念格合并对概念格构造效率的提升可以使形式概念分析在文本处理应用中更具可操作性。本课题的研究成果可用于利用形式概念分析进行知识地图构建、文本摘要生成以及信息检索中的请求扩展和个性化推荐等方面,具有较好的研究前景。
项目成果
期刊论文数量(4)
专著数量(0)
科研奖励数量(0)
会议论文数量(2)
专利数量(2)
Concept coupling learning for improving concept lattice-based document retrieval
用于改进基于概念格的文档检索的概念耦合学习
- DOI:10.1016/j.engappai.2017.12.007
- 发表时间:2018
- 期刊:Engineering Applications of Artificial Intelligence
- 影响因子:8
- 作者:Hao Shufeng;Shi Chongyang;Niu Zhendong;Cao Longbing
- 通讯作者:Cao Longbing
Case retrieval based on formal concept analysis
基于形式概念分析的案例检索
- DOI:10.1166/jctn.2016.5271
- 发表时间:2016
- 期刊:Journal of Computational and Theoretical Nanoscience
- 影响因子:--
- 作者:Shi Chongyang;Yu Bai;Niu Zhendong;Qi Zhang
- 通讯作者:Qi Zhang
HCBC: A Hierarchical Case-Based Classifier Integrated with Conceptual Clustering
HCBC:与概念聚类相结合的基于案例的分层分类器
- DOI:10.1109/tkde.2018.2824317
- 发表时间:2019-01
- 期刊:IEEE Transactions on Knowledge and Data Engineering
- 影响因子:8.9
- 作者:Zhang Qi;Shi Chongyang;Niu Zhendong;Cao Longbing
- 通讯作者:Cao Longbing
A New Digital Paper Search Paradigm Based on FCA
基于FCA的新型数字论文检索范式
- DOI:10.3966/160792642018081904013
- 发表时间:2018-07
- 期刊:Journal of Internet Technology
- 影响因子:1.6
- 作者:Yu Haibin;Shi Chongyang;Zhang Chunxia;Hearne Ryan;Yu Bai
- 通讯作者:Yu Bai
数据更新时间:{{ journalArticles.updateTime }}
{{
item.title }}
{{ item.translation_title }}
- DOI:{{ item.doi || "--"}}
- 发表时间:{{ item.publish_year || "--" }}
- 期刊:{{ item.journal_name }}
- 影响因子:{{ item.factor || "--"}}
- 作者:{{ item.authors }}
- 通讯作者:{{ item.author }}
数据更新时间:{{ journalArticles.updateTime }}
{{ item.title }}
- 作者:{{ item.authors }}
数据更新时间:{{ monograph.updateTime }}
{{ item.title }}
- 作者:{{ item.authors }}
数据更新时间:{{ sciAawards.updateTime }}
{{ item.title }}
- 作者:{{ item.authors }}
数据更新时间:{{ conferencePapers.updateTime }}
{{ item.title }}
- 作者:{{ item.authors }}
数据更新时间:{{ patent.updateTime }}
其他文献
其他文献
{{
item.title }}
{{ item.translation_title }}
- DOI:{{ item.doi || "--" }}
- 发表时间:{{ item.publish_year || "--"}}
- 期刊:{{ item.journal_name }}
- 影响因子:{{ item.factor || "--" }}
- 作者:{{ item.authors }}
- 通讯作者:{{ item.author }}
内容获取失败,请点击重试
查看分析示例
此项目为已结题,我已根据课题信息分析并撰写以下内容,帮您拓宽课题思路:
AI项目摘要
AI项目思路
AI技术路线图
请为本次AI项目解读的内容对您的实用性打分
非常不实用
非常实用
1
2
3
4
5
6
7
8
9
10
您认为此功能如何分析更能满足您的需求,请填写您的反馈:
施重阳的其他基金
融合因果发现和动态传播分析的社交谣言检测与干预研究
- 批准号:62372043
- 批准年份:2023
- 资助金额:50 万元
- 项目类别:面上项目
相似国自然基金
{{ item.name }}
- 批准号:{{ item.ratify_no }}
- 批准年份:{{ item.approval_year }}
- 资助金额:{{ item.support_num }}
- 项目类别:{{ item.project_type }}
相似海外基金
{{
item.name }}
{{ item.translate_name }}
- 批准号:{{ item.ratify_no }}
- 财政年份:{{ item.approval_year }}
- 资助金额:{{ item.support_num }}
- 项目类别:{{ item.project_type }}