Deep Web数据集成查询结果抽取与整合关键技术研究
项目介绍
AI项目解读
基本信息
- 批准号:61100167
- 项目类别:青年科学基金项目
- 资助金额:20.0万
- 负责人:
- 依托单位:
- 学科分类:F0211.信息检索与社会计算
- 结题年份:2014
- 批准年份:2011
- 项目状态:已结题
- 起止时间:2012-01-01 至2014-12-31
- 项目参与者:梁银; 凌萍; 陈克建; 张功杰; 王书芹;
- 关键词:
项目摘要
Web可分为Surface Web和Deep Web。Deep Web数据量大、主题专一、数据质量高,其价值远远超过了Surface Web,然而传统的搜索引擎搜索不出这部分数据。为了方便用户高效使用Deep Web数据,大规模Deep Web数据集成的研究已成为一个非常迫切的问题。查询结果的抽取与整合是Deep Web数据集成中的重要环节,存在着许多困难和挑战。本项目拟探讨其中最为核心的三个关键技术:研究查询结果页面抽取技术,充分利用页面的结构特征和内容特征,实现结构化数据的自动抽取;研究查询结果数据语义标注技术,充分利用Web数据元素之间的逻辑约束关系,提高语义标注的准确性,并实现多数据源数据模式的一致性;研究大规模重复记录检测技术,构建领域层次的重复记录检测模型,实现同一领域大规模Web数据库之间自动的重复记录检测。项目成果预期将在商业智能、企业搜索、情报分析等系统中。
结项摘要
项目组全面完成任务书中各项任务,发表论文22篇,其中SCI检索4篇,EI检索17篇,ISTP检索5篇,申请专利1项,获得软件著作权2项。项目负责人董永权入选江苏省“青蓝工程”优秀青年骨干教师,在美国纽约州立大学宾汉姆顿分校计算机系进行为期一年的访问学习。. 本项目主要围绕Deep Web数据集成中查询结果处理的关键技术展开研究, 主要包括:(1)在查询结果页面抽取方面,针对列表页面,提出一种基于视觉信息和部分树对齐的Web数据抽取方法。该方法充分利用页面的视觉信息,利用聚类及重组方法进行数据记录抽取,利用部分树对齐方法进行数据项抽取,有效提高了列表页面的抽取准确率;针对详细页面,提出一种基于集成学习的Web数据抽取方法。该方法充分利用页面的结构特征和内容特征,集成多个分类器的抽取结果,有效提高了详细页面的抽取准确率。(2)在查询结果语义标注方面,首先提出一种基于半监督条件随机场的Web数据语义标注方法。该方法仅需要较少的训练集,减少了人工标注的负担,同时综合利用多种特征(文字特征、上下文特征、语义特征等)训练条件随机场模型,具有较好的标注性能。在此基础上又进一步展开研究,提出一种基于约束条件随机场模型的Web数据语义标注方法。该方法充分利用了已有的Web数据库信息和Web数据元素之间的逻辑关系,有效提高了Web数据语义标注的性能。(3)在大规模重复记录检测方面,提出一种三段式自动重复记录检测方法。该方法利用聚类集成方法自动选择初始训练集,避免手工标注,提高初始训练集选择的准确率;利用协同训练方法学习任意两个Web数据源之间的分类模型,提高了分类的准确性;利用证据理论方法构建领域层次的重复记录检测模型,有效地实现了同一领域内大规模Web数据源之间的重复记录检测。(4)在Web数据获取方面,提出一种基于查询词采新率模型的Deep Web爬取方法。该方法克服了已有方法单一性和经验性的不足,有效的保证了查询的无关性,从而确保查询样本的覆盖度,减少其冗余性。
项目成果
期刊论文数量(18)
专著数量(0)
科研奖励数量(0)
会议论文数量(5)
专利数量(0)
基于K折交叉验证的选择性集成分类算法
- DOI:--
- 发表时间:2013
- 期刊:科技通报
- 影响因子:--
- 作者:胡局新;张功杰
- 通讯作者:张功杰
Incremental Spectral Clustering
增量谱聚类
- DOI:--
- 发表时间:2012
- 期刊:Journal of Convergence Information Technology
- 影响因子:--
- 作者:Ling Ping;Rong Xiangsheng;Dong Yongquan
- 通讯作者:Dong Yongquan
基于对象集合的空间关键词查询
- DOI:--
- 发表时间:2014
- 期刊:计算机应用
- 影响因子:--
- 作者:梁银;董永权
- 通讯作者:董永权
基于约束条件随机场的Web数据语义标注
- DOI:--
- 发表时间:2012
- 期刊:计算机研究与发展
- 影响因子:--
- 作者:董永权;李庆忠;丁艳辉;彭朝晖
- 通讯作者:彭朝晖
一种基于收缩超平面的支持向量分类算法
- DOI:--
- 发表时间:2014
- 期刊:小型微型计算机系统
- 影响因子:--
- 作者:凌萍;荣祥胜;高大金
- 通讯作者:高大金
数据更新时间:{{ journalArticles.updateTime }}
{{
item.title }}
{{ item.translation_title }}
- DOI:{{ item.doi || "--"}}
- 发表时间:{{ item.publish_year || "--" }}
- 期刊:{{ item.journal_name }}
- 影响因子:{{ item.factor || "--"}}
- 作者:{{ item.authors }}
- 通讯作者:{{ item.author }}
数据更新时间:{{ journalArticles.updateTime }}
{{ item.title }}
- 作者:{{ item.authors }}
数据更新时间:{{ monograph.updateTime }}
{{ item.title }}
- 作者:{{ item.authors }}
数据更新时间:{{ sciAawards.updateTime }}
{{ item.title }}
- 作者:{{ item.authors }}
数据更新时间:{{ conferencePapers.updateTime }}
{{ item.title }}
- 作者:{{ item.authors }}
数据更新时间:{{ patent.updateTime }}
其他文献
基于属性融合的多真值发现方法
- DOI:--
- 发表时间:2022
- 期刊:数据分析与知识发现
- 影响因子:--
- 作者:杨昊霖;董永权;陈华凤
- 通讯作者:陈华凤
面向个性化课程推荐的分层分期注意力网络模型
- DOI:10.11772/j.issn.1001-9081.2022091336
- 发表时间:--
- 期刊:计算机应用
- 影响因子:--
- 作者:刘源;董永权;贾瑞;杨昊霖
- 通讯作者:杨昊霖
span style=font-family:#39;Times New Roman#39;;font-size:10.5pt;Double-Phase Locality Sensitive Hashing of Neighborhood Development for Multi-Relational Data/span
多关系数据邻域开发的双阶段局部敏感哈希
- DOI:--
- 发表时间:2015
- 期刊:Soft Computing
- 影响因子:4.1
- 作者:凌萍;荣祥胜;董永权;郝国生
- 通讯作者:郝国生
基于多特征融合的无监督真值发现方法
- DOI:--
- 发表时间:--
- 期刊:计算机采集与处理
- 影响因子:--
- 作者:陈华凤;董永权;杨昊霖;张国玺
- 通讯作者:张国玺
基于语料库的语义解释空间构建及其应用
- DOI:--
- 发表时间:2017
- 期刊:江苏科技大学学报
- 影响因子:--
- 作者:郝国生;杨茂云;韩玉强;董永权;凌萍;刘亚丽;王改革
- 通讯作者:王改革
其他文献
{{
item.title }}
{{ item.translation_title }}
- DOI:{{ item.doi || "--" }}
- 发表时间:{{ item.publish_year || "--"}}
- 期刊:{{ item.journal_name }}
- 影响因子:{{ item.factor || "--" }}
- 作者:{{ item.authors }}
- 通讯作者:{{ item.author }}

内容获取失败,请点击重试

查看分析示例
此项目为已结题,我已根据课题信息分析并撰写以下内容,帮您拓宽课题思路:
AI项目摘要
AI项目思路
AI技术路线图

请为本次AI项目解读的内容对您的实用性打分
非常不实用
非常实用
1
2
3
4
5
6
7
8
9
10
您认为此功能如何分析更能满足您的需求,请填写您的反馈:
董永权的其他基金
面向Deep Web的数据整合关键技术研究
- 批准号:61872168
- 批准年份:2018
- 资助金额:62.0 万元
- 项目类别:面上项目
相似国自然基金
{{ item.name }}
- 批准号:{{ item.ratify_no }}
- 批准年份:{{ item.approval_year }}
- 资助金额:{{ item.support_num }}
- 项目类别:{{ item.project_type }}
相似海外基金
{{
item.name }}
{{ item.translate_name }}
- 批准号:{{ item.ratify_no }}
- 财政年份:{{ item.approval_year }}
- 资助金额:{{ item.support_num }}
- 项目类别:{{ item.project_type }}