CIF21 DIBBs: EI: Vizier, Streamlined Data Curation

CIF21 DIBB:EI:Vizier,简化的数据管理

基本信息

  • 批准号:
    1640864
  • 负责人:
  • 金额:
    $ 272.57万
  • 依托单位:
  • 依托单位国家:
    美国
  • 项目类别:
    Standard Grant
  • 财政年份:
    2017
  • 资助国家:
    美国
  • 起止时间:
    2017-01-01 至 2021-06-30
  • 项目状态:
    已结题

项目摘要

Big Data promises to have a positive impact on many aspects of our lives, but assembling the data to answer questions or derive predictive models can be challenging. Data scientists must typically go through multiple rounds of curation, or 'wrangling,' where data are organized, refined, cleaned up, and merged together before they can be analyzed. Curation is often slow and costly, but is essential for obtaining useful and trustworthy answers. This project develops a software tool called Vizier that aims to streamline data curation and enable domain experts who do not have computer science expertise to curate their own data. Easier curation magnifies the value of big data by enabling a wide range of users to improve data quality, and in doing so benefits numerous types of data-driven work in government, industry, and science.Vizier features an intuitive interface combining elements of notebooks and spreadsheets, allowing analysts to quickly see, edit, and revise data. This capability is complemented by a framework for automated data cleaning steps that are seamlessly integrated with manual curation operations. The heart of Vizier is a system for managing uncertainty and provenance of curation workflows and data, enabling the user to keep track of higher-level curation operations as well as track the lineage of data. By transparently maintaining the history of all the user's actions and their effect on the curated data, Vizier enables regret-free exploration and curation where any changes to the data and their transitive effects can be undone. By learning from past curation histories, the system will also be able to provide users with context-dependent recommendations for additional curation actions.This award by the Advanced Cyberinfrastructure Division is jointly supported by the NSF Directorate for Social, Behavioral and Economic Sciences (Division of Social and Economic Sciences).
大数据有望对我们生活的许多方面产生积极影响,但组装数据来回答问题或得出预测模型可能具有挑战性。 数据科学家通常必须经过多轮管理或“整理”,在分析数据之前对数据进行组织、细化、清理和合并。 管理通常缓慢且成本高昂,但对于获得有用且值得信赖的答案至关重要。 该项目开发了一款名为 Vizier 的软件工具,旨在简化数据管理,并使不具备计算机科学专业知识的领域专家能够管理自己的数据。 更轻松的管理通过使广泛的用户能够提高数据质量来放大大数据的价值,从而使政府、工业和科学领域的多种数据驱动型工作受益。Vizier 具有直观的界面,结合了笔记本电脑和电子表格,使分析师能够快速查看、编辑和修改数据。 此功能得到了与手动管理操作无缝集成的自动化数据清理步骤框架的补充。 Vizier 的核心是一个用于管理策展工作流程和数据的不确定性和来源的系统,使用户能够跟踪更高级别的策展操作并跟踪数据的沿袭。通过透明地维护所有用户操作的历史记录及其对策展数据的影响,Vizier 可以实现无遗憾的探索和策展,其中对数据及其传递影响的任何更改都可以撤消。通过学习过去的管理历史,该系统还将能够为用户提供与上下文相关的建议,以进行额外的管理操作。该奖项由高级网络基础设施部门颁发,并得到 NSF 社会、行为和经济科学理事会(美国国家科学基金会社会、行为和经济科学部门)的共同支持。社会和经济科学)。

项目成果

期刊论文数量(29)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
Using Reenactment to Retroactively Capture Provenance for Transactions
使用重演来追溯捕获交易的来源
  • DOI:
    10.1109/tkde.2017.2769056
  • 发表时间:
    2017
  • 期刊:
  • 影响因子:
    8.9
  • 作者:
    Arab, Bahareh Sadat;Gawlick, Dieter;Krishnaswamy, Vasudha;Radhakrishnan, Venkatesh;Glavic, Boris
  • 通讯作者:
    Glavic, Boris
Beta Probabilistic Databases: A Scalable Approach to Belief Updating and Parameter Learning
Beta 概率数据库:一种可扩展的置信更新和参数学习方法
Loki: Streamlining Integration and Enrichment
Loki:简化集成和丰富
  • DOI:
  • 发表时间:
    2020
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Spoth, William;Kumari, Poonam;Kennedy, Oliver;Nargesian, Fatemeh
  • 通讯作者:
    Nargesian, Fatemeh
Putting Things into Context: Rich Explanations for Query Answers using Join Graphs
Approximate summaries for why and why-not provenance
  • DOI:
    10.14778/3380750.3380760
  • 发表时间:
    2020-01
  • 期刊:
  • 影响因子:
    2.5
  • 作者:
    Seok-Gyun Lee;Bertram Ludäscher;Boris Glavic
  • 通讯作者:
    Seok-Gyun Lee;Bertram Ludäscher;Boris Glavic
{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ patent.updateTime }}

Oliver Kennedy其他文献

PIP: A database system for great and small expectations
PIP:满足大大小小的期望的数据库系统
Efficient Approximation of Certain and Possible Answers for Ranking and Window Queries over Uncertain Data (Extended version)
不确定数据的排名和窗口查询的某些和可能答案的有效近似(扩展版)
  • DOI:
    10.48550/arxiv.2302.08676
  • 发表时间:
    2023
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Su Feng;Boris Glavic;Oliver Kennedy
  • 通讯作者:
    Oliver Kennedy
Jigsaw: efficient optimization over uncertain enterprise data
Jigsaw:不确定企业数据的高效优化
  • DOI:
  • 发表时间:
    2011
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Oliver Kennedy;Suman Nath
  • 通讯作者:
    Suman Nath
Inventory Allocation for Online Graphical Display Advertising using Multi-objective Optimization
使用多目标优化的在线图形展示广告库存分配
On-Demand Query Result Cleaning
按需查询结果清理
  • DOI:
  • 发表时间:
    2014
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Ying Yang;Oliver Kennedy;Jan Chomicki
  • 通讯作者:
    Jan Chomicki

Oliver Kennedy的其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

{{ truncateString('Oliver Kennedy', 18)}}的其他基金

SCC-PG: A Sustainable and Connected Community-Scale Food System to Empower Consumers, Farmers, and Retailers
SCC-PG:可持续且互联的社区规模食品系统,为消费者、农民和零售商提供支持
  • 批准号:
    2125516
  • 财政年份:
    2021
  • 资助金额:
    $ 272.57万
  • 项目类别:
    Standard Grant
III: Medium: Collaborative Research: U4U - Taming Uncertainty with Uncertainty-Annotated Databases
III:媒介:合作研究:U4U - 利用不确定性注释数据库来克服不确定性
  • 批准号:
    1956149
  • 财政年份:
    2020
  • 资助金额:
    $ 272.57万
  • 项目类别:
    Standard Grant
NSF Student Travel Grant for 2019 Symposium on Cloud Computing (SOCC)
2019 年云计算研讨会 (SOCC) 的 NSF 学生旅费补助
  • 批准号:
    1930814
  • 财政年份:
    2019
  • 资助金额:
    $ 272.57万
  • 项目类别:
    Standard Grant
CAREER: Declarative Uncertainty
职业:声明的不确定性
  • 批准号:
    1750460
  • 财政年份:
    2018
  • 资助金额:
    $ 272.57万
  • 项目类别:
    Continuing Grant
III: Small: Just in Time Datastructures
III:小:即时数据结构
  • 批准号:
    1617586
  • 财政年份:
    2016
  • 资助金额:
    $ 272.57万
  • 项目类别:
    Standard Grant
CI-P: Planning for a Community Infrastructure to Enable Pocket-Scale Data Management Research
CI-P:规划社区基础设施以实现小型数据管理研究
  • 批准号:
    1629791
  • 财政年份:
    2016
  • 资助金额:
    $ 272.57万
  • 项目类别:
    Standard Grant

相似国自然基金

基于单体碳-溴二维稳定同位素分析的沉积物中多溴联苯醚和六溴环十二烷转化机制研究
  • 批准号:
  • 批准年份:
    2022
  • 资助金额:
    30 万元
  • 项目类别:
    青年科学基金项目
西北干旱区电子垃圾拆解处置区典型有机物污染环境效应及人群暴露风险
  • 批准号:
    41701582
  • 批准年份:
    2017
  • 资助金额:
    26.0 万元
  • 项目类别:
    青年科学基金项目
模拟水泥窑热工制度下溴代二恶英的生成规律
  • 批准号:
    51778592
  • 批准年份:
    2017
  • 资助金额:
    60.0 万元
  • 项目类别:
    面上项目
基于改造联苯双加氧酶获取高溴代二苯醚降解菌并用于土壤修复的研究
  • 批准号:
    41671314
  • 批准年份:
    2016
  • 资助金额:
    66.0 万元
  • 项目类别:
    面上项目
多溴联苯醚及其羟基衍生物降解形成溴代二噁英的机理研究
  • 批准号:
    21377033
  • 批准年份:
    2013
  • 资助金额:
    80.0 万元
  • 项目类别:
    面上项目

相似海外基金

CIF21 DIBBs: EI: Virtual Data Collaboratory: A Regional Cyberinfrastructure for Collaborative Data Intensive Science
CIF21 DIBB:EI:虚拟数据协作:协作数据密集型科学的区域网络基础设施
  • 批准号:
    2220826
  • 财政年份:
    2021
  • 资助金额:
    $ 272.57万
  • 项目类别:
    Standard Grant
CIF21 DIBBs: EI: Creating a Digital Environment for Enabling Data-Driven Science (DEEDS)
CIF21 DIBB:EI:创建数字环境以实现数据驱动科学 (DEEDS)
  • 批准号:
    1724728
  • 财政年份:
    2017
  • 资助金额:
    $ 272.57万
  • 项目类别:
    Standard Grant
CIF21 DIBBs: EI: North East Storage Exchange
CIF21 DIBB:EI:东北存储交易所
  • 批准号:
    1753840
  • 财政年份:
    2017
  • 资助金额:
    $ 272.57万
  • 项目类别:
    Standard Grant
CIF21 DIBBs: EI: SLATE and the Mobility of Capability
CIF21 DIBB:EI:SLATE 和能力流动性
  • 批准号:
    1724821
  • 财政年份:
    2017
  • 资助金额:
    $ 272.57万
  • 项目类别:
    Continuing Grant
CIF21 DIBBs: EI: Integrated Platform for Applied Network Data Analysis (PANDA)
CIF21 DIBB:EI:应用网络数据分析集成平台 (PANDA)
  • 批准号:
    1724853
  • 财政年份:
    2017
  • 资助金额:
    $ 272.57万
  • 项目类别:
    Standard Grant
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了