基于优质数据分离的大数据查询问题研究

结题报告
项目介绍
AI项目解读

基本信息

  • 批准号:
    61702220
  • 项目类别:
    青年科学基金项目
  • 资助金额:
    25.0万
  • 负责人:
  • 依托单位:
  • 学科分类:
    F0202.系统软件、数据库与工业软件
  • 结题年份:
    2020
  • 批准年份:
    2017
  • 项目状态:
    已结题
  • 起止时间:
    2018-01-01 至2020-12-31

项目摘要

With the wide use of big data in every walk of life, the “quantity” of data is growing rapidly, but the "quality" of data is declining. Therefore, query algorithms need to guarantee the efficiency and quality of query results at the same time. However, repairing the entire data set often leads to inefficiency, and the data quality of the items in the same data set may vary. Thus, in big data environment, a promising solution to get high-quality query results is to extract a high-quality subset consisting of data items highly relevant to the query from the big data set, and to obtain query results based on those extracted high-quality data. To this end, this proposal studies the problems of querying big data based on extracting high-quality data, focusing on both “quantity” and "quality". First, a query-oriented data extraction model will be built. Based on the model, a subset of data consisting of the high-quality data items relevant to the given query can be extracted from the big data set. Then, the problems of query rewriting based on data quality constraints will be studied, and a set of algorithms will be provided for redirecting the original query to the extracted high-quality data. After that, efficient updating mechanisms will be established for the pre-computed results which should be long-term stored to accelerate the whole computation. At last, a prototype system will be designed and implemented based on the proposed theories and methods. We hope that this research can solve several key problems of querying big data based on extracting high-quality data, and offer some references for the future related research.
当前,各行各业中数据的“量”飞速增长,但“质”却不断下降,这一方面要求查询算法能够保证效率,另一方面还要求其保证结果的数据质量。由于完全修复数据在大数据环境下会变的低效,而同属一个大数据集合的数据项的质量可能参差不齐,故可尝试通过分离大数据集合中与查询相关的高质量数据子集来缩减数据规模并保证结果质量。为此,本项目拟从“量”和“质”同时出发,研究基于优质数据分离的大数据查询问题:首先,建立面向查询的优质数据分离模型,从大数据集合中分离出一个和查询密切相关的优质数据子集;接着,研究基于质量约束的目标查询改写问题,设计算法用于改写原始查询使之指向优质数据子集,并获取高质量查询结果;然后,针对前两个问题中为保证效率而需长期存储的预计算结果,建立高效的更新机制;最后还将基于上述理论和算法开发一个原型系统。希望通过本项目研究,解决基于优质数据分离的大数据查询的一些关键问题,为后续研究提供有价值的思路。

结项摘要

近年来,数据质量管理的重要性在各行业大数据治理中日益凸显。大数据环境下的数据质量管理同时面临着“量”和“质”两方面的挑战。为了高效地从海量数据中获得高质量的查询结果,一个切实可行的思路是针对给定的查询,通过分离大数据集合中与查询相关的高质量数据子集来缩减数据规模,进而同时提升查询执行效率和查询结果质量。本项目从“量”和“质”同时出发,研究基于优质数据分离的大数据查询问题,完成了四方面的主要工作。在面向查询的优质数据分离方法方面,提出了:① 高时效性数据分离问题的模型和算法,② 分离结果的数据时效性评估模型,③ 多数据源环境下的优质数据分离模型和算法。在基于质量约束的目标查询改写算法方面,设计了:① 细粒度的数据质量评估模型及查询改写算法;② 时空关联的数据源质量评估和目标查询改写方法。在动态场景下分离与改写结果更新策略方面,研究了:① 劣质数据对数据分析和查询结果的影响程度,② 基于属性关系增强的不一致数据匹配模型,③ 基于强化学习的增量式劣质数据处理机制。此外,还构建了用于支撑优质数据分离和查询改写的上下游必要机制。项目在执行期间取得了良好的进展,在国际知名期刊和会议共发表论文12篇,其中SCI国际期刊9篇,EI国际会议3篇,申请专利2项。

项目成果

期刊论文数量(9)
专著数量(0)
科研奖励数量(0)
会议论文数量(3)
专利数量(2)
Deep Reinforcement Learning for Partially Observable Data Poisoning Attack in Crowdsensing Systems
群体感知系统中部分可观察数据中毒攻击的深度强化学习
  • DOI:
    10.1109/jiot.2019.2962914
  • 发表时间:
    --
  • 期刊:
    IEEE Internet of Things Journal
  • 影响因子:
    10.6
  • 作者:
    Li Mohan;Sun Yanbin;Lu Hui;Maharjan Sabita;Tian Zhihong
  • 通讯作者:
    Tian Zhihong
DPIF: A Framework for Distinguishing Unintentional Quality Problems From Potential Shilling Attacks
DPIF:区分无意质量问题和潜在先令攻击的框架
  • DOI:
    10.1038/s41467-018-03331-8
  • 发表时间:
    2018-02-15
  • 期刊:
    Computers Materials & Continua
  • 影响因子:
    --
  • 作者:
    Nam MS;Williams BH;Chen Y;Contera S;Yao S;Lu M;Chen YF;Timco GA;Muryn CA;Winpenny REP;Ardavan A
  • 通讯作者:
    Ardavan A
Secure Data Sharing Framework via Hierarchical Greedy Embedding in Darknets
通过在暗网中分层贪婪嵌入来确保数据共享框架的安全
  • DOI:
    --
  • 发表时间:
    2019
  • 期刊:
    Mobile Networks and Applications
  • 影响因子:
    3.8
  • 作者:
    Sun Yanbin;Li Mohan;Su Shen;Tian Zhihong;Shi Wei;Han Meng
  • 通讯作者:
    Han Meng
Uncertain rule based method for determining data currency
基于不确定规则的数据货币确定方法
  • DOI:
    10.1587/transinf.2017edp7378
  • 发表时间:
    2018
  • 期刊:
    IEICE Transactions on Information and Systems
  • 影响因子:
    0.7
  • 作者:
    Li Mohan;Li Jianzhong;Cheng Siyao;Sun Yanbin
  • 通讯作者:
    Sun Yanbin
Identifying Honeypots from ICS Devices Using Lightweight Fuzzy Testing
使用轻量级模糊测试识别 ICS 设备中的蜜罐
  • DOI:
    10.32604/cmc.2020.010593
  • 发表时间:
    2020
  • 期刊:
    Computers Materials & Continua
  • 影响因子:
    --
  • 作者:
    Sun Yanbin;Pan Xiaojun;Xu Chao;Sun Penggang;Guan Quanlong;Li Mohan;Han Men
  • 通讯作者:
    Han Men

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi || "--"}}
  • 发表时间:
    {{ item.publish_year || "--" }}
  • 期刊:
    {{ item.journal_name }}
  • 影响因子:
    {{ item.factor || "--"}}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.authors }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.authors }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.authors }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.authors }}

数据更新时间:{{ patent.updateTime }}

其他文献

一种基于不确定规则的数据时效性判定方法
  • DOI:
    --
  • 发表时间:
    2014
  • 期刊:
    软件学报
  • 影响因子:
    --
  • 作者:
    李默涵; 李建中; 程思瑶
  • 通讯作者:
    程思瑶
紧凑城市视角下的建成区时空演变特征及其影响因素分析——以上海为例
  • DOI:
    --
  • 发表时间:
    2021
  • 期刊:
    上海城市规划
  • 影响因子:
    --
  • 作者:
    周新刚;傅韵同;郎嵬;李默涵
  • 通讯作者:
    李默涵
脑电的灰建模和驾驶疲劳特征提取
  • DOI:
    --
  • 发表时间:
    --
  • 期刊:
    生物医学工程学杂志
  • 影响因子:
    --
  • 作者:
    李默涵;江朝晖;冯焕清
  • 通讯作者:
    冯焕清
数据时效性判定问题的求解算法
  • DOI:
    --
  • 发表时间:
    2012
  • 期刊:
    计算机学报
  • 影响因子:
    --
  • 作者:
    李默涵;李建中;高宏
  • 通讯作者:
    高宏
数据时效性修复问题的求解算法
  • DOI:
    --
  • 发表时间:
    2014
  • 期刊:
    计算机研究与发展
  • 影响因子:
    --
  • 作者:
    李默涵; 李建中
  • 通讯作者:
    李建中

其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi || "--" }}
  • 发表时间:
    {{ item.publish_year || "--"}}
  • 期刊:
    {{ item.journal_name }}
  • 影响因子:
    {{ item.factor || "--" }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}
empty
内容获取失败,请点击重试
重试联系客服
title开始分析
查看分析示例
此项目为已结题,我已根据课题信息分析并撰写以下内容,帮您拓宽课题思路:

AI项目思路

AI技术路线图

李默涵的其他基金

网络入侵检测机器学习模型多维鲁棒性评测方法研究
  • 批准号:
    62372126
  • 批准年份:
    2023
  • 资助金额:
    50 万元
  • 项目类别:
    面上项目

相似国自然基金

{{ item.name }}
  • 批准号:
    {{ item.ratify_no }}
  • 批准年份:
    {{ item.approval_year }}
  • 资助金额:
    {{ item.support_num }}
  • 项目类别:
    {{ item.project_type }}

相似海外基金

{{ item.name }}
{{ item.translate_name }}
  • 批准号:
    {{ item.ratify_no }}
  • 财政年份:
    {{ item.approval_year }}
  • 资助金额:
    {{ item.support_num }}
  • 项目类别:
    {{ item.project_type }}
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了

AI项目解读示例

课题项目:调控A型流感病毒诱导IFN-β表达的机制研究

AI项目摘要:

本研究聚焦于TRIM2蛋白在A型流感病毒诱导的IFN-β表达中的调控机制。A型流感病毒是全球性健康问题,其感染可导致严重的呼吸道疾病。IFN-β作为关键的抗病毒因子,其表达水平对抗病毒防御至关重要。然而,TRIM2如何调控IFN-β的表达尚未明确。本研究假设TRIM2通过与病毒RNA或宿主因子相互作用,影响IFN-β的产生。我们将采用分子生物学、细胞生物学和免疫学方法,探索TRIM2与A型流感病毒诱导IFN-β表达的关系。预期结果将揭示TRIM2在抗病毒免疫反应中的作用,为开发新的抗病毒策略提供理论基础。该研究对理解宿主抗病毒机制具有重要科学意义,并可能对临床治疗流感病毒感染提供新的视角。

AI项目思路:

科学问题:TRIM2如何调控A型流感病毒诱导的IFN-β表达?
前期研究:已有研究表明TRIM2参与抗病毒反应,但其具体机制尚不明确。
研究创新点:本研究将深入探讨TRIM2在IFN-β表达中的直接作用机制。
技术路线:包括病毒学、分子生物学、细胞培养和免疫检测技术。
关键技术:TRIM2与病毒RNA的相互作用分析,IFN-β启动子活性检测。
实验模型:使用A型流感病毒感染的细胞模型进行研究。

AI技术路线图

        graph TD
          A[研究起始] --> B[文献回顾与假设提出]
          B --> C[实验设计与方法学准备]
          C --> D[A型流感病毒感染模型建立]
          D --> E[TRIM2与病毒RNA相互作用分析]
          E --> F[TRIM2对IFN-β启动子活性的影响]
          F --> G[IFN-β表达水平测定]
          G --> H[TRIM2功能丧失与获得研究]
          H --> I[数据收集与分析]
          I --> J[结果解释与科学验证]
          J --> K[研究结论与未来方向]
          K --> L[研究结束]
      
关闭
close
客服二维码