基于概念背景图的网络爬虫语义协作与竞争策略研究
项目介绍
AI项目解读
基本信息
- 批准号:61271413
- 项目类别:面上项目
- 资助金额:70.0万
- 负责人:
- 依托单位:
- 学科分类:F0113.信息获取与处理
- 结题年份:2016
- 批准年份:2012
- 项目状态:已结题
- 起止时间:2013-01-01 至2016-12-31
- 项目参与者:宋文; 何忠秀; 刘克剑; 王晓明; 海宇峰; 谢春芝; 钟建; 刘文君; 赵飞宇;
- 关键词:
项目摘要
In focused cralwing system, multi-crawlers crawl parallelly Web and download Web pages. It is one of hotspot research of search engine how the different focused crawlers avoid to visit the same URLs and they download efficiently Web pages related to the search topic. In order to accomplish rapidly the crawling tasks of the system for the specific topic, and embody fully every Web crawler's ability, we consider that these history visiting Web pages (URLs) of every focused crawler reflect their backgroup knowledge. On basis of cralwing independently, collaborating togather and competing with each other for Web crawlers of the system, we propose the novel understanding, cooperating and competing strategy of concept context graph by analyzing these Web page's content, extracting semantic features- - concepts of these Web pages in history collects of every Web crawlers as their backgroup knowledge and studing the semantic relationships of their backgroup knowledge. Our mainly researches are listed as follows:.1).Constructing the mathematical model of backgrounp knowledge of every Web crawler based on hierarchy concept context graph, according to the semantic characteristics- - concepts of Web pages and their semantic relationships among the concepts..2).Studying the understanding method and model among Web crawlers based on hierarchy concept context graph..3).Studying and implementing the cooprtating, competing model among Web crawlers of the same group managing by a F-Agent..4).Studying and implementing the cooprtating, competing model among Web crawlers of the diferent group managing by F-Agents.. By researching, we expect to acquire a series of new ideas, new methods, new technologies and new systems with understanding, cooperating and completing function among muti-agent Web crawlers for information retrieval. In search engine, this research project has important significances in theories and broad prospects in applications.
在多个Web主题爬虫并行爬行中,如何避免重复访问网页和高效地获取与主题相关网页,成为搜索引擎主题爬行的热点研究之一。为了完成系统爬行任务和充分发挥每个爬虫自身能力,本申请项目立足于每个爬虫相对独立爬行、共同协作、彼此竞争的思想,将爬虫的历史爬行网页作为背景知识,分析这些网页文本内容,提取网页的概念和概念间的语义关系,探讨不同爬行虫背景知识之间的语义相似性,提出基于分层概念背景图的爬虫之间理解方法、协作和竞争策略。重点研究四个方面的内容:1)主题爬虫背景知识的分层概念背景图的表示模型。2)基于分层概念背景图的爬虫语义理解方法。3)在语义理解模型下同组多个网络爬虫之间协作与竞争机制及实现。4)在语义理解模型下异组多个爬虫之间协作与竞争机制及实现。通过研究预期获得一套多网络爬虫相互理解、协作、竞争的信息获取的新思想、新方法、新技术、新系统。因此本项目研究具有着重要的理论意义和广阔的应用前景。
结项摘要
在多个Web主题爬虫并行爬行中,如何避免重复访问网页和高效地获取与主题相关网页,成为搜索引擎主题爬行的热点研究之一。为了完成系统爬行任务和充分发挥每个爬虫自身能力,本申请项目立足于每个爬虫相对独立爬行、共同协作、彼此竞争的思想,将爬虫的历史爬行网页作为背景知识,分析这些网页文本内容,提取网页的概念和概念间的语义关系,探讨不同爬行虫背景知识之间的语义相似性,提出基于分层概念背景图的爬虫之间理解方法、协作和竞争策略。重点研究四个方面的内容:1)主题爬虫背景知识的分层概念背景图的表示模型。2)基于分层概念背景图的爬虫语义理解方法。3)在语义理解模型下同组多个网络爬虫之间协作与竞争机制及实现。4)在语义理解模型下异组多个爬虫之间协作与竞争机制及实现。主要结果体现在:. 1)提出了基于用户兴趣Agent Crawlers初始种子集选择的方法.我们充分利用用户兴趣本体表达爬虫背景知识和用户感兴趣的区域作为初始种子集,实验结果表明该方法能有效的提高网页获取的进度。提出了最优概念背景图的概念,在在最优化概念背景图的基础上,提出了对概念背景图进行动态更新方法。. 2)提出了一种基于多Agent网络爬虫的理解度的衡量方法。这样可以从某种程度上消除自然语言的模糊性,提高理解的准确性。设计实现了基于多Agent系统的主题爬虫模型,使用改进的合同网协议模拟多Agent间的协调。实验结果表明基于多Agent系统的主题爬虫模型检索的网页相关性、相对回报率都有一定的提高。. 3)提出了适合Agent Crawlers合同网协议和拍卖协商协议。实验对比证明Agent Crawlers之间采用合适的协商方式可以显著地提高系统的效率。. 4)提出了多Agent的多对一、多对多关系组内组间竞争模型,该模型基于市场匹配中构造一组清仓价格的思想,让参与竞争的C-Agent与需要完成协作的资源形成完美匹配。实验表明查准率和查全率有一定幅度增长。
项目成果
期刊论文数量(36)
专著数量(0)
科研奖励数量(0)
会议论文数量(8)
专利数量(0)
A novel focused crawler based on cell-like membrane computing optimization algorithm
一种新型的基于类细胞膜计算优化算法的聚焦爬虫
- DOI:10.1016/j.neucom.2013.06.039
- 发表时间:2014
- 期刊:Neurocomputing
- 影响因子:6
- 作者:WenJun Liu;YaJun Du
- 通讯作者:YaJun Du
The understanding between agent crawlers based on domain ontology
基于领域本体的Agent爬虫的理解
- DOI:10.14311/nnw.2012.22.018
- 发表时间:2012
- 期刊:Neural Network World
- 影响因子:0.8
- 作者:Du, Yajun;Wang, Yingyu;Chen, Shaoming
- 通讯作者:Chen, Shaoming
Confusion diagnosis and avoidance of discrete event systems using supervisory control
使用监督控制的离散事件系统的混乱诊断和避免
- DOI:10.1002/tee.22188
- 发表时间:2016-01
- 期刊:IEEJ Transactions on Electrical and Electronic Engineering
- 影响因子:1
- 作者:Chen Xiaoliang;Li Zhiwu;Wu Naiqi;Al-Ahmari Abdulrahman;El-Tamimi Abdulaziz Mohammed;Nasr Emad Abouel
- 通讯作者:Nasr Emad Abouel
Improvements of HITS algorithm based on content analysis
基于内容分析的HITS算法改进
- DOI:--
- 发表时间:2014
- 期刊:Journal of Computational Information Systems
- 影响因子:--
- 作者:Du, Yajun;Song, Wen;Liu, Wenjun;Meng, Qingrui
- 通讯作者:Meng, Qingrui
一种基于网格查询的改进DBSCAN算法
- DOI:--
- 发表时间:2016
- 期刊:西华大学学报(自然科学版)
- 影响因子:--
- 作者:冯玲;刘克剑;唐福喜;孟庆瑞
- 通讯作者:孟庆瑞
共 32 条
- 1
- 2
- 3
- 4
- 5
- 6
- 7
其他文献
基于形式概念分析的用户查询词与网页匹配方法(英文)
- DOI:--
- 发表时间:--
- 期刊:西华大学学报(自然科学版)
- 影响因子:--
- 作者:杜亚军
- 通讯作者:杜亚军
网络爬行虫智能化研究分析
- DOI:--
- 发表时间:--
- 期刊:西华大学学报(自然科学版)
- 影响因子:--
- 作者:杜亚军
- 通讯作者:杜亚军
基于自适应搜索窗的非局部均值去噪算法
- DOI:--
- 发表时间:2015
- 期刊:成都大学学报:自然科学版
- 影响因子:--
- 作者:胡金蓉;王晓明;黄增喜;杜亚军
- 通讯作者:杜亚军
An SEI3R information propagation control algorithm with structural hole and high influential infected nodes in social networks
社交网络中具有结构洞和高影响力感染节点的SEI3R信息传播控制算法
- DOI:10.1016/j.engappai.2021.104573
- 发表时间:2022-02
- 期刊:Engineering Applications of Artificial Intelligence 108 (2022) 104573
- 影响因子:--
- 作者:张倩;李显勇;范永全;杜亚军
- 通讯作者:杜亚军
基于Web的多渠道用户需求知识获取框架研究
- DOI:--
- 发表时间:--
- 期刊:计算机技术与发展
- 影响因子:--
- 作者:何忠秀;王霜;杜亚军
- 通讯作者:杜亚军
共 12 条
- 1
- 2
- 3
杜亚军的其他基金
基于结构平衡的社交网络舆情正向引导学习策略与方法
- 批准号:61872298
- 批准年份:2018
- 资助金额:62.0 万元
- 项目类别:面上项目
基于微博社区的知识图谱构建与分析
- 批准号:61472329
- 批准年份:2014
- 资助金额:82.0 万元
- 项目类别:面上项目
基于领域本体的Web语义爬行策略研究
- 批准号:60872089
- 批准年份:2008
- 资助金额:29.0 万元
- 项目类别:面上项目