Deep Web数据集成查询结果抽取与整合关键技术研究

结题报告
项目介绍
AI项目解读

基本信息

  • 批准号:
    61100167
  • 项目类别:
    青年科学基金项目
  • 资助金额:
    20.0万
  • 负责人:
  • 依托单位:
  • 学科分类:
    F0211.信息检索与社会计算
  • 结题年份:
    2014
  • 批准年份:
    2011
  • 项目状态:
    已结题
  • 起止时间:
    2012-01-01 至2014-12-31

项目摘要

Web可分为Surface Web和Deep Web。Deep Web数据量大、主题专一、数据质量高,其价值远远超过了Surface Web,然而传统的搜索引擎搜索不出这部分数据。为了方便用户高效使用Deep Web数据,大规模Deep Web数据集成的研究已成为一个非常迫切的问题。查询结果的抽取与整合是Deep Web数据集成中的重要环节,存在着许多困难和挑战。本项目拟探讨其中最为核心的三个关键技术:研究查询结果页面抽取技术,充分利用页面的结构特征和内容特征,实现结构化数据的自动抽取;研究查询结果数据语义标注技术,充分利用Web数据元素之间的逻辑约束关系,提高语义标注的准确性,并实现多数据源数据模式的一致性;研究大规模重复记录检测技术,构建领域层次的重复记录检测模型,实现同一领域大规模Web数据库之间自动的重复记录检测。项目成果预期将在商业智能、企业搜索、情报分析等系统中。

结项摘要

项目组全面完成任务书中各项任务,发表论文22篇,其中SCI检索4篇,EI检索17篇,ISTP检索5篇,申请专利1项,获得软件著作权2项。项目负责人董永权入选江苏省“青蓝工程”优秀青年骨干教师,在美国纽约州立大学宾汉姆顿分校计算机系进行为期一年的访问学习。. 本项目主要围绕Deep Web数据集成中查询结果处理的关键技术展开研究, 主要包括:(1)在查询结果页面抽取方面,针对列表页面,提出一种基于视觉信息和部分树对齐的Web数据抽取方法。该方法充分利用页面的视觉信息,利用聚类及重组方法进行数据记录抽取,利用部分树对齐方法进行数据项抽取,有效提高了列表页面的抽取准确率;针对详细页面,提出一种基于集成学习的Web数据抽取方法。该方法充分利用页面的结构特征和内容特征,集成多个分类器的抽取结果,有效提高了详细页面的抽取准确率。(2)在查询结果语义标注方面,首先提出一种基于半监督条件随机场的Web数据语义标注方法。该方法仅需要较少的训练集,减少了人工标注的负担,同时综合利用多种特征(文字特征、上下文特征、语义特征等)训练条件随机场模型,具有较好的标注性能。在此基础上又进一步展开研究,提出一种基于约束条件随机场模型的Web数据语义标注方法。该方法充分利用了已有的Web数据库信息和Web数据元素之间的逻辑关系,有效提高了Web数据语义标注的性能。(3)在大规模重复记录检测方面,提出一种三段式自动重复记录检测方法。该方法利用聚类集成方法自动选择初始训练集,避免手工标注,提高初始训练集选择的准确率;利用协同训练方法学习任意两个Web数据源之间的分类模型,提高了分类的准确性;利用证据理论方法构建领域层次的重复记录检测模型,有效地实现了同一领域内大规模Web数据源之间的重复记录检测。(4)在Web数据获取方面,提出一种基于查询词采新率模型的Deep Web爬取方法。该方法克服了已有方法单一性和经验性的不足,有效的保证了查询的无关性,从而确保查询样本的覆盖度,减少其冗余性。

项目成果

期刊论文数量(18)
专著数量(0)
科研奖励数量(0)
会议论文数量(5)
专利数量(0)
基于K折交叉验证的选择性集成分类算法
  • DOI:
    --
  • 发表时间:
    2013
  • 期刊:
    科技通报
  • 影响因子:
    --
  • 作者:
    胡局新;张功杰
  • 通讯作者:
    张功杰
Incremental Spectral Clustering
增量谱聚类
  • DOI:
    --
  • 发表时间:
    2012
  • 期刊:
    Journal of Convergence Information Technology
  • 影响因子:
    --
  • 作者:
    Ling Ping;Rong Xiangsheng;Dong Yongquan
  • 通讯作者:
    Dong Yongquan
基于对象集合的空间关键词查询
  • DOI:
    --
  • 发表时间:
    2014
  • 期刊:
    计算机应用
  • 影响因子:
    --
  • 作者:
    梁银;董永权
  • 通讯作者:
    董永权
基于约束条件随机场的Web数据语义标注
  • DOI:
    --
  • 发表时间:
    2012
  • 期刊:
    计算机研究与发展
  • 影响因子:
    --
  • 作者:
    董永权;李庆忠;丁艳辉;彭朝晖
  • 通讯作者:
    彭朝晖
一种基于收缩超平面的支持向量分类算法
  • DOI:
    --
  • 发表时间:
    2014
  • 期刊:
    小型微型计算机系统
  • 影响因子:
    --
  • 作者:
    凌萍;荣祥胜;高大金
  • 通讯作者:
    高大金

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi || "--"}}
  • 发表时间:
    {{ item.publish_year || "--" }}
  • 期刊:
    {{ item.journal_name }}
  • 影响因子:
    {{ item.factor || "--"}}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.authors }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.authors }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.authors }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.authors }}

数据更新时间:{{ patent.updateTime }}

其他文献

基于属性融合的多真值发现方法
  • DOI:
    --
  • 发表时间:
    2022
  • 期刊:
    数据分析与知识发现
  • 影响因子:
    --
  • 作者:
    杨昊霖;董永权;陈华凤
  • 通讯作者:
    陈华凤
面向个性化课程推荐的分层分期注意力网络模型
  • DOI:
    10.11772/j.issn.1001-9081.2022091336
  • 发表时间:
    --
  • 期刊:
    计算机应用
  • 影响因子:
    --
  • 作者:
    刘源;董永权;贾瑞;杨昊霖
  • 通讯作者:
    杨昊霖
span style=font-family:#39;Times New Roman#39;;font-size:10.5pt;Double-Phase Locality Sensitive Hashing of Neighborhood Development for Multi-Relational Data/span
多关系数据邻域开发的双阶段局部敏感哈希
  • DOI:
    --
  • 发表时间:
    2015
  • 期刊:
    Soft Computing
  • 影响因子:
    4.1
  • 作者:
    凌萍;荣祥胜;董永权;郝国生
  • 通讯作者:
    郝国生
基于多特征融合的无监督真值发现方法
  • DOI:
    --
  • 发表时间:
    --
  • 期刊:
    计算机采集与处理
  • 影响因子:
    --
  • 作者:
    陈华凤;董永权;杨昊霖;张国玺
  • 通讯作者:
    张国玺
基于语料库的语义解释空间构建及其应用
  • DOI:
    --
  • 发表时间:
    2017
  • 期刊:
    江苏科技大学学报
  • 影响因子:
    --
  • 作者:
    郝国生;杨茂云;韩玉强;董永权;凌萍;刘亚丽;王改革
  • 通讯作者:
    王改革

其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi || "--" }}
  • 发表时间:
    {{ item.publish_year || "--"}}
  • 期刊:
    {{ item.journal_name }}
  • 影响因子:
    {{ item.factor || "--" }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}
empty
内容获取失败,请点击重试
重试联系客服
title开始分析
查看分析示例
此项目为已结题,我已根据课题信息分析并撰写以下内容,帮您拓宽课题思路:

AI项目思路

AI技术路线图

董永权的其他基金

面向Deep Web的数据整合关键技术研究
  • 批准号:
    61872168
  • 批准年份:
    2018
  • 资助金额:
    62.0 万元
  • 项目类别:
    面上项目

相似国自然基金

{{ item.name }}
  • 批准号:
    {{ item.ratify_no }}
  • 批准年份:
    {{ item.approval_year }}
  • 资助金额:
    {{ item.support_num }}
  • 项目类别:
    {{ item.project_type }}

相似海外基金

{{ item.name }}
{{ item.translate_name }}
  • 批准号:
    {{ item.ratify_no }}
  • 财政年份:
    {{ item.approval_year }}
  • 资助金额:
    {{ item.support_num }}
  • 项目类别:
    {{ item.project_type }}
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了

AI项目解读示例

课题项目:调控A型流感病毒诱导IFN-β表达的机制研究

AI项目摘要:

本研究聚焦于TRIM2蛋白在A型流感病毒诱导的IFN-β表达中的调控机制。A型流感病毒是全球性健康问题,其感染可导致严重的呼吸道疾病。IFN-β作为关键的抗病毒因子,其表达水平对抗病毒防御至关重要。然而,TRIM2如何调控IFN-β的表达尚未明确。本研究假设TRIM2通过与病毒RNA或宿主因子相互作用,影响IFN-β的产生。我们将采用分子生物学、细胞生物学和免疫学方法,探索TRIM2与A型流感病毒诱导IFN-β表达的关系。预期结果将揭示TRIM2在抗病毒免疫反应中的作用,为开发新的抗病毒策略提供理论基础。该研究对理解宿主抗病毒机制具有重要科学意义,并可能对临床治疗流感病毒感染提供新的视角。

AI项目思路:

科学问题:TRIM2如何调控A型流感病毒诱导的IFN-β表达?
前期研究:已有研究表明TRIM2参与抗病毒反应,但其具体机制尚不明确。
研究创新点:本研究将深入探讨TRIM2在IFN-β表达中的直接作用机制。
技术路线:包括病毒学、分子生物学、细胞培养和免疫检测技术。
关键技术:TRIM2与病毒RNA的相互作用分析,IFN-β启动子活性检测。
实验模型:使用A型流感病毒感染的细胞模型进行研究。

AI技术路线图

        graph TD
          A[研究起始] --> B[文献回顾与假设提出]
          B --> C[实验设计与方法学准备]
          C --> D[A型流感病毒感染模型建立]
          D --> E[TRIM2与病毒RNA相互作用分析]
          E --> F[TRIM2对IFN-β启动子活性的影响]
          F --> G[IFN-β表达水平测定]
          G --> H[TRIM2功能丧失与获得研究]
          H --> I[数据收集与分析]
          I --> J[结果解释与科学验证]
          J --> K[研究结论与未来方向]
          K --> L[研究结束]
      
关闭
close
客服二维码