基于用户反馈的Web数据集成中的数据质量管理
项目介绍
AI项目解读
基本信息
- 批准号:61173146
- 项目类别:面上项目
- 资助金额:57.0万
- 负责人:
- 依托单位:
- 学科分类:F0207.计算机网络
- 结题年份:2015
- 批准年份:2011
- 项目状态:已结题
- 起止时间:2012-01-01 至2015-12-31
- 项目参与者:刘德喜; 刘喜平; 钟敏娟; 江腾蛟; 焦贤沛; 邓松; 李国林; 杨莉;
- 关键词:
项目摘要
Web数据集成由于其特殊性,给数据质量管理带来了新的挑战和机遇。本项目研究Web数据集成中的若干数据质量管理问题,包括:Web数据源选择;Web数据集成中的实体关联,包括离线实体关联、在线实体关联和实体关联更新;数据融合。总体思路是,将用户反馈作为出发点和突破口,根据Web数据源和Web数据集成的特点,基于用户反馈学习解决方案。该思路利用了Web数据集成的特点,探索了数据质量管理的新方法。具体来说,基于数据源质量和用户反馈来选择Web数据源;以用户反馈为指导,利用Web语境和隐式关系进行离线实体关联,基于用户反馈和查询松弛进行在线实体关联,通过Web页面更新识别实现实体关联更新;通过属性分类和属性可信度计算实现数据融合。项目提出的基于用户反馈的数据源选择方法、基于用户反馈的实体关联方法和基于群体的实体关联方法具有创新性。
结项摘要
Web数据集成由于其特殊性,给数据质量管理带来了新的挑战和机遇。本项目研究Web数据集成中的若干数据质量管理问题,包括:深网数据源选择,实体识别与实体关系抽取,XML结点语义权重模型与XML片段检索,半结构化数据的关键词查询,XML查询扩展,Web商品评论特征提取与虚假内容识别,Web金融评论的情感评价单元抽取与情感计算。创新性工作体现在:提出了基于数据质量的数据源选择策略,以及面向检索型关键词查询的、面向混合类型关键词查询的非合作结构化深网数据源选择模型;提出了依存句法关系组合特征、最近句法依赖动词特征及其提取方法,以及基于上述特征的实体关系抽取策略;提出了一种基于主题概括强度的结点(标签/路径)语义权重模型(ATG模型)以及基于ATG模型的XML片段检索策略,提交的片段检索结果在INEX 2011评测中获得了第一名的成绩;设计了一种多特征融合的文摘句抽取方法,提出一种基于随机冲浪模型的多XML文档自动文摘的句子重排方法;提出了一种新的描述半结构化查询的模型,称为带结构的关键词查询模型;定义了一种新的原型的距离度量,称为基于松弛的原型距离,并基于该距离提出了一种XML关键词搜索结果多样化的新思路;针对带约束的排序查询问题,提出了一种新的查询处理框架,该框架的思路是:为了处理对象的空间位置,构建一棵R树,同时,为了支持空间位置、数值属性和文本描述上的查询,对R树进行增强,使得在R树中遍历的同时,可以同时评估空间位置、数值属性,以及文本描述上的约束和排序条件,并采取经典的Best-first算法来指导查询的执行;提出了基于词义相似度和上下文相关度相结合的词聚类度量方法,并基于此度量提出了一种基于词聚类先验知识的商品主题特征提取模型WC-LDA;提出了一种基于行为和内容的虚假评论识别方法;提出了3类词语关联的定义、全局特征词约束的概念以及发现方法,并在此基础上提出了弱监督的AC-LDA主题模型,设计了全局特征词约束和词语关联约束改变主题词概率分配的影响机制,并利用全局特征词、词语关联强度的先验知识指导LDA进行主题挖掘;提出了基于浅层语义与语法分析相结合的评价对象-情感词对抽取规则,基于特殊情感词搭配表、上下文搭配表及频繁搭配表提出了隐式评价对象识别的新思路;提出了针对中文Web金融评论的基于词性与依存句法分析的情感计算规则,提出了基于二叉树的情感计算策略。
项目成果
期刊论文数量(38)
专著数量(0)
科研奖励数量(1)
会议论文数量(8)
专利数量(0)
基于模拟退火的花朵授粉优化算法
- DOI:--
- 发表时间:2015
- 期刊:计算机应用
- 影响因子:--
- 作者:肖辉辉;万常选;段艳明;钟青
- 通讯作者:钟青
基于句法语义特征的中文实体关系抽取
- DOI:--
- 发表时间:2016
- 期刊:计算机研究与发展
- 影响因子:--
- 作者:万常选;刘德喜;钟青;江腾蛟
- 通讯作者:江腾蛟
基于语素的金融证劵域文本情感探测
- DOI:--
- 发表时间:2011
- 期刊:
- 影响因子:--
- 作者:万常选;边海容;杨莉;钟敏娟
- 通讯作者:钟敏娟
Weighting Tags and Paths in XML Documents According to Their Topic Generalization
根据主题概括对 XML 文档中的标签和路径进行加权
- DOI:--
- 发表时间:2013
- 期刊:Information Sciences
- 影响因子:8.1
- 作者:Changxuan Wan;Lei Chen;Xiping Liu;Jian-Yun Nie
- 通讯作者:Jian-Yun Nie
XML关键词搜索结果的多样化
- DOI:--
- 发表时间:2012
- 期刊:计算机科学与探索
- 影响因子:--
- 作者:刘喜平;万常选;刘德喜
- 通讯作者:刘德喜
数据更新时间:{{ journalArticles.updateTime }}
{{
item.title }}
{{ item.translation_title }}
- DOI:{{ item.doi || "--"}}
- 发表时间:{{ item.publish_year || "--" }}
- 期刊:{{ item.journal_name }}
- 影响因子:{{ item.factor || "--"}}
- 作者:{{ item.authors }}
- 通讯作者:{{ item.author }}
数据更新时间:{{ journalArticles.updateTime }}
{{ item.title }}
- 作者:{{ item.authors }}
数据更新时间:{{ monograph.updateTime }}
{{ item.title }}
- 作者:{{ item.authors }}
数据更新时间:{{ sciAawards.updateTime }}
{{ item.title }}
- 作者:{{ item.authors }}
数据更新时间:{{ conferencePapers.updateTime }}
{{ item.title }}
- 作者:{{ item.authors }}
数据更新时间:{{ patent.updateTime }}
其他文献
An association-constrained LDA model for joint extraction of product aspects and opinions
用于联合提取产品方面和意见的关联约束 LDA 模型
- DOI:10.1016/j.ins.2020.01.036
- 发表时间:2020
- 期刊:Information Sciences
- 影响因子:8.1
- 作者:万常选;彭云;Keli Xiao;刘喜平;江腾蛟;刘德喜
- 通讯作者:刘德喜
融合高斯变异和Powell法的花朵授粉优化算法
- DOI:10.3778/j.issn.1673-9418.1601003
- 发表时间:2017
- 期刊:计算机科学与探索
- 影响因子:--
- 作者:肖辉辉;万常选;段艳明;喻聪
- 通讯作者:喻聪
基于协陪义动词的中文隐式实体关系抽取
- DOI:10.11897/sp.j.1016.2019.02795
- 发表时间:2019
- 期刊:计算机学报
- 影响因子:--
- 作者:万常选;甘丽新;江腾蛟;刘德喜;刘喜平;刘玉
- 通讯作者:刘玉
基于PSP_HDP主题模型的非结构化经济指标挖掘
- DOI:10.13328/j.cnki.jos.005898
- 发表时间:2020
- 期刊:软件学报
- 影响因子:--
- 作者:张奕韬;万常选;刘喜平;江腾蛟;刘德喜;廖国琼
- 通讯作者:廖国琼
调和耦合混沌系统及其在伪随机数发生器中的应用
- DOI:--
- 发表时间:--
- 期刊:小型微型计算机系统
- 影响因子:--
- 作者:伍琦;谭作文;万常选
- 通讯作者:万常选
其他文献
{{
item.title }}
{{ item.translation_title }}
- DOI:{{ item.doi || "--" }}
- 发表时间:{{ item.publish_year || "--"}}
- 期刊:{{ item.journal_name }}
- 影响因子:{{ item.factor || "--" }}
- 作者:{{ item.authors }}
- 通讯作者:{{ item.author }}
内容获取失败,请点击重试
查看分析示例
此项目为已结题,我已根据课题信息分析并撰写以下内容,帮您拓宽课题思路:
AI项目摘要
AI项目思路
AI技术路线图
请为本次AI项目解读的内容对您的实用性打分
非常不实用
非常实用
1
2
3
4
5
6
7
8
9
10
您认为此功能如何分析更能满足您的需求,请填写您的反馈:
万常选的其他基金
面向财经应用的事件及其主题抽取
- 批准号:
- 批准年份:2022
- 资助金额:54 万元
- 项目类别:面上项目
面向财经应用的文本挖掘若干关键技术研究
- 批准号:61972184
- 批准年份:2019
- 资助金额:59 万元
- 项目类别:面上项目
基于语义挖掘的Web金融信息情感分析关键技术研究
- 批准号:61562032
- 批准年份:2015
- 资助金额:40.0 万元
- 项目类别:地区科学基金项目
基于隐式反馈和伪反馈的XML文本文档检索技术研究
- 批准号:60763001
- 批准年份:2007
- 资助金额:21.0 万元
- 项目类别:地区科学基金项目
相似国自然基金
{{ item.name }}
- 批准号:{{ item.ratify_no }}
- 批准年份:{{ item.approval_year }}
- 资助金额:{{ item.support_num }}
- 项目类别:{{ item.project_type }}
相似海外基金
{{
item.name }}
{{ item.translate_name }}
- 批准号:{{ item.ratify_no }}
- 财政年份:{{ item.approval_year }}
- 资助金额:{{ item.support_num }}
- 项目类别:{{ item.project_type }}