BIGDATA: F: DKM: Addressing the two V's of Veracity and Variety in Big Data

BIGDATA:F:DKM:解决大数据中的准确性和多样性这两个 V

基本信息

  • 批准号:
    1447795
  • 负责人:
  • 金额:
    $ 100万
  • 依托单位:
  • 依托单位国家:
    美国
  • 项目类别:
    Standard Grant
  • 财政年份:
    2014
  • 资助国家:
    美国
  • 起止时间:
    2014-09-01 至 2020-08-31
  • 项目状态:
    已结题

项目摘要

Data of questionable quality have led to significantly negative economic and social impacts on organizations, leading to overrun in costs, lost revenue, and decreased efficiencies. The issues on data reliability, credibility, and provenance have become even more daunting when dealing with the variety of data, especially data that are not directly collected by an organization, but from the third-party sources such as social media, data brokers, and crowdsourcing. To address such issues, this project aims to develop a Data Valuation Engine (DVE) that solves the critical problem of data reliability, credibility and provenance, and provides accountability and quality processes right from data acquisition. The DVE leverages and innovates techniques in estimation theory, data fusion and machine learning to fill a critical gap in data accountability and quality, thereby providing a transformative step in countering the ubiquitous data quality issues found in almost every application domain from business to environment to health to national security. The DVE will be integrated in the Hadoop ecosystem and will be agnostic to the data source, application or analytics, and provided as a hosted solution to the community. The user will interact with DVE by providing the data sources and relevant data necessary to solve a problem. The DVE in this project will be developed in a largely application-independent manner. The key challenges to develop this engine include: (i) How to generate the data quality indication labels to score data sources and the content of data based on various factors such as reliability, credibility, uncertainty and confidence? (ii) How to integrate data from various sources with different labeled scores? (iii) How to robustly evaluate the proposed engine in a broad spectrum of applications that serve as a proxy of a variety of real-world scenarios? The research plan has been designed to synergistically address the above challenges with a robust evaluation plan. Given the generality of the proposed methods, models and system, the project will potentially impact variety of applications of science, engineering, and social science and have broad environmental, economic, and health benefits. The PIs will release open source software and applicable data. The PIs will also provide a hosted DVE platform for a broad user and participant base. This project is also providing students with greater exposure to the areas of big data analytics, cloud computing, data fusion and data mining, both in courses and research experiences.
质量可疑的数据给组织带来了严重的负面经济和社会影响,导致成本超支、收入损失和效率下降。在处理各种数据时,数据的可靠性、可信度和来源问题变得更加令人畏惧,尤其是那些不是由组织直接收集、而是来自社交媒体、数据经纪人和其他第三方来源的数据。众包。为了解决这些问题,该项目旨在开发一个数据评估引擎(DVE),解决数据可靠性、可信度和来源的关键问题,并从数据采集开始提供问责制和质量流程。 DVE 利用估计理论、数据融合和机器学习方面的技术并进行创新,以填补数据责任和质量方面的关键空白,从而为解决从业务到环境到健康的几乎每个应用领域中普遍存在的数据质量问题提供了变革性的一步为了国家安全。 DVE 将集成到 Hadoop 生态系统中,并且与数据源、应用程序或分析无关,并作为托管解决方案提供给社区。 用户将通过提供解决问题所需的数据源和相关数据来与 DVE 进行交互。该项目中的 DVE 将以很大程度上独立于应用程序的方式进行开发。开发该引擎的关键挑战包括:(i)如何生成数据质量指示标签,根据可靠性、可信度、不确定性和置信度等各种因素对数据源和数据内容进行评分? (ii) 如何整合具有不同标记分数的不同来源的数据? (iii) 如何在广泛的应用程序中稳健地评估所提出的引擎,作为各种现实场景的代理?该研究计划旨在通过强有力的评估计划协同应对上述挑战。鉴于所提出的方法、模型和系统的通用性,该项目将潜在地影响科学、工程和社会科学的各种应用,并具有广泛的环境、经济和健康效益。 PI 将发布开源软件和适用数据。 PI 还将为广泛的用户和参与者群体提供托管的 DVE 平台。该项目还让学生在课程和研究经验中更多地接触大数据分析、云计算、数据融合和数据挖掘领域。

项目成果

期刊论文数量(0)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ patent.updateTime }}

Nitesh Chawla其他文献

Neural Tree Kernel Learning
神经树核学习
  • DOI:
  • 发表时间:
    2024-09-13
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Su;Martin Wistuba;Ambrish Rawat;Nitesh Chawla
  • 通讯作者:
    Nitesh Chawla
Fast Explainability via Feasible Concept Sets Generator
通过可行概念集生成器快速解释
Understanding imbalanced data: XAI & interpretable ML framework
了解不平衡数据:XAI
  • DOI:
  • 发表时间:
    2024
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Damien Dablain;Colin Bellinger;Bartosz Krawczyk;D. Aha;Nitesh Chawla
  • 通讯作者:
    Nitesh Chawla
GHC: G: Deep Reinforcement Learning for Heterogeneous Relational Reasoning in Knowledge Graphs
GHC:G:知识图中异构关系推理的深度强化学习
Modeling Considerations for Quantitative Social Science Research Using Social Media Data
使用社交媒体数据进行定量社会科学研究的建模注意事项
  • DOI:
  • 发表时间:
    2020
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Ceren Budak;Stuart Soroka;Lisa Singh;Michael Bailey;Leticia Bode;Nitesh Chawla;P. Davis‐Kean;M. de Choudhury;Richard De Veaux;Ulrike Hahn;J. Jensen;J. Ladd;Zeina Mneimneh;Josh Pasek;T. Raghunathan;Rebecca Ryan;Noah A. Smith;Karen Stohr;Michael Traugott
  • 通讯作者:
    Michael Traugott

Nitesh Chawla的其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

{{ truncateString('Nitesh Chawla', 18)}}的其他基金

SCC-CIVIC-PG Track B: Community-Based Research meets Systems Approach: Closing the Loop on Child Lead Poisoning
SCC-CIVIC-PG 轨道 B:基于社区的研究与系统方法的结合:关闭儿童铅中毒的循环
  • 批准号:
    2228687
  • 财政年份:
    2022
  • 资助金额:
    $ 100万
  • 项目类别:
    Standard Grant
SCC-CIVIC-PG Track B: Community-Based Research meets Systems Approach: Closing the Loop on Child Lead Poisoning
SCC-CIVIC-PG 轨道 B:基于社区的研究与系统方法的结合:关闭儿童铅中毒的循环
  • 批准号:
    2228687
  • 财政年份:
    2022
  • 资助金额:
    $ 100万
  • 项目类别:
    Standard Grant
HDR: DSC: Interdisciplinary Traineeship for Socially Responsible and Engaged Data Scientists
HDR:DSC:具有社会责任感和参与度的数据科学家的跨学科培训
  • 批准号:
    1924279
  • 财政年份:
    2019
  • 资助金额:
    $ 100万
  • 项目类别:
    Standard Grant
HDR: DSC: Interdisciplinary Traineeship for Socially Responsible and Engaged Data Scientists
HDR:DSC:具有社会责任感和参与度的数据科学家的跨学科培训
  • 批准号:
    1924279
  • 财政年份:
    2019
  • 资助金额:
    $ 100万
  • 项目类别:
    Standard Grant
Student Travel Support for the 2015 SIAM International Conference on Data Mining
2015 年 SIAM 国际数据挖掘会议的学生旅行支持
  • 批准号:
    1535285
  • 财政年份:
    2015
  • 资助金额:
    $ 100万
  • 项目类别:
    Standard Grant
CDI-TYPE II: Building and studying a virtual organization for adaptation to climate change
CDI-TYPE II:建立和研究适应气候变化的虚拟组织
  • 批准号:
    1029584
  • 财政年份:
    2010
  • 资助金额:
    $ 100万
  • 项目类别:
    Standard Grant
Collaborative Research: AIS: Incremental Learning from Unbalanced Data in Nonstationary Environments
合作研究:AIS:非平稳环境中不平衡数据的增量学习
  • 批准号:
    0926170
  • 财政年份:
    2009
  • 资助金额:
    $ 100万
  • 项目类别:
    Standard Grant
CSR-AES: Troubleshooting Large Scale Computing Grids with Machine Learning Techniques
CSR-AES:利用机器学习技术对大规模计算网格进行故障排除
  • 批准号:
    0720813
  • 财政年份:
    2007
  • 资助金额:
    $ 100万
  • 项目类别:
    Standard Grant

相似海外基金

BIGDATA: F: DKA: CSD: DKM: Theory and Algorithms for Processing Data with Sparse and Multilinear Structure
BIGDATA:F:DKA:CSD:DKM:稀疏和多线性结构数据处理的理论和算法
  • 批准号:
    1447879
  • 财政年份:
    2014
  • 资助金额:
    $ 100万
  • 项目类别:
    Standard Grant
BIGDATA: F: DKM: Spectral Analysis and Control of Evolving Large Scale Networks
BIGDATA:F:DKM:不断发展的大规模网络的频谱分析和控制
  • 批准号:
    1447470
  • 财政年份:
    2014
  • 资助金额:
    $ 100万
  • 项目类别:
    Standard Grant
BIGDATA: F: DKM: Collaborative Research: Making Big Data Active: From Petabytes to Megafolks in Milliseconds
BIGDATA:F:DKM:协作研究:使大数据活跃起来:在毫秒内从 PB 级到百万级数据
  • 批准号:
    1447720
  • 财政年份:
    2014
  • 资助金额:
    $ 100万
  • 项目类别:
    Standard Grant
BIGDATA: F: DKA: DKM: Novel Out-of-core and Parallel Algorithms for Processing Biological Big Data
BIGDATA:F:DKA:DKM:用于处理生物大数据的新型核外并行算法
  • 批准号:
    1447711
  • 财政年份:
    2014
  • 资助金额:
    $ 100万
  • 项目类别:
    Standard Grant
BIGDATA: F: DKM: Collaborative Research: PXFS: ParalleX Based Transformative I/O System for Big Data
BIGDATA:F:DKM:协作研究:PXFS:基于 ParalleX 的大数据变革性 I/O 系统
  • 批准号:
    1447831
  • 财政年份:
    2014
  • 资助金额:
    $ 100万
  • 项目类别:
    Standard Grant
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了