面向Deep Web的数据整合关键技术研究
项目介绍
AI项目解读
基本信息
- 批准号:61872168
- 项目类别:面上项目
- 资助金额:62.0万
- 负责人:
- 依托单位:
- 学科分类:F0211.信息检索与社会计算
- 结题年份:2022
- 批准年份:2018
- 项目状态:已结题
- 起止时间:2019-01-01 至2022-12-31
- 项目参与者:洪维强; 凌萍; 姜芳艽; 刘亚丽; 张功杰; 潘剑寒; 张子晨; 胡玥; 杨淼;
- 关键词:
项目摘要
There are a large number of Web data sources on Deep Web.These Web data sources have different data quality, which results in generating incomplete and inaccurate data.It leads the different descriptions for the same entity among different data sources to have a serious data conflict,which makes the accuracy and availability of integrated data difficult to be ensured. Therefore, data fusion for Deep Web is particularly important. This project is to study three key techniques for data consolidation: (1)research on duplicate record identification technology among large-scale data sources. We prepare to build domain-level duplicate record identification model to accommodate large-scale properties of Web data sources. (2)research on truth finding technology. We prepare to construct truth finding model which supports for dynamically adding new factors to improve the accuracy of truth finding. Meanwhile, researching on the effective inference methods is to improve the efficiency of truth finding.We are also to study the truth finding approach when the values of some field are all missing. (3)research on record normalization technology. We are to make the normal records meet the various needs of users to ensure its availability. Based on the above key techniques, we will develop a verifiable and displayable prototype system, and strive to make breakthroughs in the theory and technology to lay a solid foundation for future practical applications.
Deep Web拥有大量的Web数据源,这些数据源具有不同的数据质量,造成其可能提供不完整、不准确的数据,这使得不同数据源对同一实体的不同描述之间产生严重的数据冲突,难以保证集成数据的正确性和可用性,因此,Deep Web中的数据融合问题显得尤为重要。本项目拟研究数据融合的三个关键技术:(1)研究大规模数据源之间的重复记录识别技术,从领域角度构建重复记录识别模型,以适应Web数据源的大规模特性;(2)研究真值发现技术,构建支持新因素动态添加的真值发现模型,提高真值发现的准确性,同时,研究有效的推理方法,提高真值发现的效率;研究字段值缺失情况下的真值发现方法;(3)研究记录标准化技术,使得标准化的记录能满足用户多种需求,确保其可用性。在解决以上关键技术基础上,开发可验证、可展示的原型系统,力争在相关理论和技术上取得突破,为今后的实际应用奠定坚实基础。
结项摘要
Deep Web拥有大量的Web数据源,这些数据源具有不同的数据质量,造成其可能提供不完整、不准确的数据,难以充分发挥数据自身价值,因此,Deep Web中的数据融合问题显得尤为重要。本项目主要研究 Deep Web 数据集成中数据融合关键技术,首先对来自大量不同Web数据源的重复记录进行识别,然后在已识别的重复记录中进行真值发现,确定真实准确的重复记录集,在此基础上,根据用户需求进行标准化处理,最后为用户提供统一的标准记录。. 本项目主要研究成果包括:(1)针对重复记录识别问题,根据数据集的结构特点,将数据集分为文本数据集和结构化数据集,在文本数据集上提出一种多语义融合的重复记录识别方法,在结构化数据集上提出一种属性自注意力的重复记录识别方法,有效发现并识别两种类型数据集中的冗余记录。(2)针对真值发现问题,根据真值数量不同,分为单真值和多真值。针对单真值问题,根据数据集结构特征,分别在文本数据集上提出一基于种编码-解码网络和聚类的单真值发现方法,在结构化数据集上提出一种基于图注意力网络的单真值发现方法;针对多真值问题,提出一种基于属性融合的多真值发现方法。通过这些方法的提出,有效保证了数据的正确性;(3)针对记录标准化问题,根据用户需求不同,提出了记录标准化粒度(记录级、字段级和值分量级)与样式(典型性和完整性)概念,在此基础上,提出一种基于多策略计算标准化记录的综合框架,该框架既包括直接使用记录本身信息的简单策略,也包括利用模式挖掘技术的复杂策略,有效保证了数据的可用性。(4)设计并实现了Deep Web数据整合原型系统及一系列模拟实验,用以验证本项目关键技术研究成果的可行性和有效性。. 本项目共发表学术论文14篇(含在线出版2篇,录用1篇),其中SCI检索5篇,EI检索4篇,中文核心5篇,申请发明专利3项,培养硕士研究生4名(2名已毕业)。本项目通过探索Deep Web中的各种数据冲突,提出了一套有效完整的Deep Web数据整合解决方案,确保集成数据的正确性和可用性,为后续数据分析与挖掘提供可靠的数据支撑。
项目成果
期刊论文数量(10)
专著数量(0)
科研奖励数量(0)
会议论文数量(4)
专利数量(3)
M3W: Multistep Three-Way Clustering
M3W:多步三向聚类
- DOI:10.1109/tnnls.2022.3208418
- 发表时间:2022-09-29
- 期刊:IEEE TRANSACTIONS ON NEURAL NETWORKS AND LEARNING SYSTEMS
- 影响因子:10.4
- 作者:Du, Mingjing;Zhao, Jingqi;Dong, Yongquan
- 通讯作者:Dong, Yongquan
面向个性化课程推荐的分层分期注意力网络模型
- DOI:10.11772/j.issn.1001-9081.2022091336
- 发表时间:--
- 期刊:计算机应用
- 影响因子:--
- 作者:刘源;董永权;贾瑞;杨昊霖
- 通讯作者:杨昊霖
Solving dynamic multi-objective problems using polynomial fitting-based prediction algorithm
使用基于多项式拟合的预测算法解决动态多目标问题
- DOI:10.1016/j.ins.2022.08.020
- 发表时间:2022-08
- 期刊:Information Sciences
- 影响因子:8.1
- 作者:Qingyang Zhang;Xiangyu He;Shengxiang Yang;Yongquan Dong;Hui Song;Shouyong Jiang
- 通讯作者:Shouyong Jiang
基于属性融合的多真值发现方法
- DOI:--
- 发表时间:2022
- 期刊:数据分析与知识发现
- 影响因子:--
- 作者:杨昊霖;董永权;陈华凤
- 通讯作者:陈华凤
基于多特征融合的无监督真值发现方法
- DOI:--
- 发表时间:--
- 期刊:计算机采集与处理
- 影响因子:--
- 作者:陈华凤;董永权;杨昊霖;张国玺
- 通讯作者:张国玺
数据更新时间:{{ journalArticles.updateTime }}
{{
item.title }}
{{ item.translation_title }}
- DOI:{{ item.doi || "--"}}
- 发表时间:{{ item.publish_year || "--" }}
- 期刊:{{ item.journal_name }}
- 影响因子:{{ item.factor || "--"}}
- 作者:{{ item.authors }}
- 通讯作者:{{ item.author }}
数据更新时间:{{ journalArticles.updateTime }}
{{ item.title }}
- 作者:{{ item.authors }}
数据更新时间:{{ monograph.updateTime }}
{{ item.title }}
- 作者:{{ item.authors }}
数据更新时间:{{ sciAawards.updateTime }}
{{ item.title }}
- 作者:{{ item.authors }}
数据更新时间:{{ conferencePapers.updateTime }}
{{ item.title }}
- 作者:{{ item.authors }}
数据更新时间:{{ patent.updateTime }}
其他文献
Clustering-based Nearest Neighbor Searching
基于聚类的最近邻搜索
- DOI:10.4304/jcp.8.8.2085-2092
- 发表时间:2013-01
- 期刊:Journal of Computers
- 影响因子:--
- 作者:凌萍;荣祥胜;董永权
- 通讯作者:董永权
Deep Web Database Selection with Classification and Rich Features
分类丰富、功能丰富的深网数据库选型
- DOI:10.4028/www.scientific.net/amr.850-851.720
- 发表时间:2013-12
- 期刊:Advanced Materials Research
- 影响因子:--
- 作者:董永权;凌萍
- 通讯作者:凌萍
基于对象集合的空间关键词查询
- DOI:--
- 发表时间:2014
- 期刊:计算机应用
- 影响因子:--
- 作者:梁银;董永权
- 通讯作者:董永权
基于语料库的语义解释空间构建及其应用
- DOI:--
- 发表时间:2017
- 期刊:江苏科技大学学报
- 影响因子:--
- 作者:郝国生;杨茂云;韩玉强;董永权;凌萍;刘亚丽;王改革
- 通讯作者:王改革
span style=font-family:#39;Times New Roman#39;;font-size:10.5pt;Double-Phase Locality Sensitive Hashing of Neighborhood Development for Multi-Relational Data/span
多关系数据邻域开发的双阶段局部敏感哈希
- DOI:--
- 发表时间:2015
- 期刊:Soft Computing
- 影响因子:4.1
- 作者:凌萍;荣祥胜;董永权;郝国生
- 通讯作者:郝国生
其他文献
{{
item.title }}
{{ item.translation_title }}
- DOI:{{ item.doi || "--" }}
- 发表时间:{{ item.publish_year || "--"}}
- 期刊:{{ item.journal_name }}
- 影响因子:{{ item.factor || "--" }}
- 作者:{{ item.authors }}
- 通讯作者:{{ item.author }}

内容获取失败,请点击重试

查看分析示例
此项目为已结题,我已根据课题信息分析并撰写以下内容,帮您拓宽课题思路:
AI项目摘要
AI项目思路
AI技术路线图

请为本次AI项目解读的内容对您的实用性打分
非常不实用
非常实用
1
2
3
4
5
6
7
8
9
10
您认为此功能如何分析更能满足您的需求,请填写您的反馈:
董永权的其他基金
Deep Web数据集成查询结果抽取与整合关键技术研究
- 批准号:61100167
- 批准年份:2011
- 资助金额:20.0 万元
- 项目类别:青年科学基金项目
相似国自然基金
{{ item.name }}
- 批准号:{{ item.ratify_no }}
- 批准年份:{{ item.approval_year }}
- 资助金额:{{ item.support_num }}
- 项目类别:{{ item.project_type }}
相似海外基金
{{
item.name }}
{{ item.translate_name }}
- 批准号:{{ item.ratify_no }}
- 财政年份:{{ item.approval_year }}
- 资助金额:{{ item.support_num }}
- 项目类别:{{ item.project_type }}