III : Medium: Collaborative Research: From Open Data to Open Data Curation

III:媒介:协作研究:从开放数据到开放数据管理

基本信息

  • 批准号:
    2420691
  • 负责人:
  • 金额:
    $ 37.5万
  • 依托单位:
  • 依托单位国家:
    美国
  • 项目类别:
    Standard Grant
  • 财政年份:
    2024
  • 资助国家:
    美国
  • 起止时间:
    2024-01-01 至 2025-09-30
  • 项目状态:
    未结题

项目摘要

Motivated by societal trends that value institutional openness and transparency, open data is being produced and shared at a speed that surpasses our ability to process it. Many governmental and private institutions are adopting Open Data Principles that state that the shared data is complete, accurate, and timely. These properties make this data of great value to data scientists, journalists, and the public. When Open Data is used effectively, data scientists can explore and analyze open resources, which in turn allows them to investigate public policy, create new scientific knowledge, and discover new (hidden) value useful for social, scientific, or economic initiatives. Though the open data movement has succeeded in its ambition of making data accessible, it has not succeed in making this valuable data easy to use. The overarching goal of this project is to address this shortcoming.In this project, we present a vision for Open Data Curation - data curation that is open, transparent, and explainable. Open Data Curation uses an on-demand integration paradigm that spans data discovery, data cleaning and linking, and data integration. Our vision is to enable users to query heterogeneous data stored in a data repository with minimal up-front effort. Users can reference concepts and attributes in their queries that do not exist in the data. An on-demand integration system (ODIS) responds to such requests by automatically determining what data could be transformed and integrated to provide data for a requested concept. In terms of societal impact, the project will provide the algorithmic innovations to make effective, intuitive on-demand integration over open data lakes a reality. Our solutions will use real open data and will be robust to the sometimes quirky, and always diverse, characteristics of open data. We believe a profound shift in how people think about data integration and curation is needed to fuel the data science revolution which is being held back by incoherent data curation - a task that is still considered one of the most time consuming, annoying, and error-prone in data science.This award reflects NSF's statutory mission and has been deemed worthy of support through evaluation using the Foundation's intellectual merit and broader impacts review criteria.
在重视机构开放性和透明度的社会趋势的推动下,开放数据的产生和共享速度超出了我们处理数据的能力。 许多政府和私人机构正在采用开放数据原则,规定共享数据是完整、准确和及时的。 这些特性使得这些数据对于数据科学家、记者和公众来说具有巨大的价值。 当开放数据得到有效使用时,数据科学家可以探索和分析开放资源,这反过来又使他们能够调查公共政策,创造新的科学知识,并发现对社会、科学或经济举措有用的新(隐藏)价值。 尽管开放数据运动成功地实现了使数据易于访问的目标,但它并没有成功地使这些有价值的数据易于使用。该项目的总体目标是解决这一缺点。在该项目中,我们提出了开放数据管理的愿景——开放、透明且可解释的数据管理。 开放数据管理使用涵盖数据发现、数据清理和链接以及数据集成的按需集成范例。 我们的愿景是让用户能够以最少的前期工作查询存储在数据存储库中的异构数据。 用户可以在查询中引用数据中不存在的概念和属性。 按需集成系统 (ODIS) 通过自动确定可以转换和集成哪些数据来为所请求的概念提供数据来响应此类请求。 在社会影响方面,该项目将提供算法创新,使开放数据湖上有效、直观的按需集成成为现实。 我们的解决方案将使用真正的开放数据,并且对于开放数据有时古怪但总是多样化的特征具有鲁棒性。 我们相信,人们对数据集成和管理的看法需要发生深刻的转变,以推动数据科学革命,而数据科学革命因不连贯的数据管理而受到阻碍——这项任务仍然被认为是最耗时、最烦人、最容易出错的任务之一——该奖项反映了 NSF 的法定使命,并通过使用基金会的智力价值和更广泛的影响审查标准进行评估,被认为值得支持。

项目成果

期刊论文数量(0)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ patent.updateTime }}

Boris Glavic其他文献

CaJaDE: Explaining Query Results by Augmenting Provenance with Context
CaJaDE:通过增强上下文来源来解释查询结果
  • DOI:
    10.14778/3554821.3554852
  • 发表时间:
    2022-08-01
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Chenjie Li;Juseung Lee;Zhengjie Miao;Boris Glavic;Sudeepa Roy
  • 通讯作者:
    Sudeepa Roy
Provenance Summaries for Answers and Non-Answers
答案和非答案的出处摘要
  • DOI:
    10.14778/3229863.3236233
  • 发表时间:
    2018-08-01
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Seok;Bertram Ludäscher;Boris Glavic
  • 通讯作者:
    Boris Glavic
Automatic Generation and Ranking of Explanations for Mapping Errors
自动生成映射错误的解释并对其进行排序
A High-Performance Distributed Relational Database System for Scalable OLAP Processing
用于可扩展 OLAP 处理的高性能分布式关系数据库系统
Interoperability for Provenance-aware Databases using PROV and JSON
使用 PROV 和 JSON 实现来源感知数据库的互操作性

Boris Glavic的其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

{{ truncateString('Boris Glavic', 18)}}的其他基金

III : Medium: Collaborative Research: From Open Data to Open Data Curation
III:媒介:协作研究:从开放数据到开放数据管理
  • 批准号:
    2107107
  • 财政年份:
    2021
  • 资助金额:
    $ 37.5万
  • 项目类别:
    Standard Grant
III: Medium: Collaborative Research: U4U - Taming Uncertainty with Uncertainty-Annotated Databases
III:媒介:合作研究:U4U - 利用不确定性注释数据库来克服不确定性
  • 批准号:
    1956123
  • 财政年份:
    2020
  • 资助金额:
    $ 37.5万
  • 项目类别:
    Standard Grant

相似国自然基金

基于机器学习和经典电动力学研究中等尺寸金属纳米粒子的量子表面等离激元
  • 批准号:
    22373002
  • 批准年份:
    2023
  • 资助金额:
    50 万元
  • 项目类别:
    面上项目
基于挥发性分布和氧化校正的大气半/中等挥发性有机物来源解析方法构建
  • 批准号:
    42377095
  • 批准年份:
    2023
  • 资助金额:
    49 万元
  • 项目类别:
    面上项目
中等质量黑洞附近的暗物质分布及其IMRI系统引力波回波探测
  • 批准号:
    12365008
  • 批准年份:
    2023
  • 资助金额:
    32 万元
  • 项目类别:
    地区科学基金项目
复合低维拓扑材料中等离激元增强光学响应的研究
  • 批准号:
    12374288
  • 批准年份:
    2023
  • 资助金额:
    52 万元
  • 项目类别:
    面上项目
中等垂直风切变下非对称型热带气旋快速增强的物理机制研究
  • 批准号:
    42305004
  • 批准年份:
    2023
  • 资助金额:
    30 万元
  • 项目类别:
    青年科学基金项目

相似海外基金

Collaborative Research: IIS: III: MEDIUM: Learning Protein-ish: Foundational Insight on Protein Language Models for Better Understanding, Democratized Access, and Discovery
协作研究:IIS:III:中等:学习蛋白质:对蛋白质语言模型的基础洞察,以更好地理解、民主化访问和发现
  • 批准号:
    2310114
  • 财政年份:
    2023
  • 资助金额:
    $ 37.5万
  • 项目类别:
    Standard Grant
Collaborative Research: III: Medium: Towards Effective Detection and Mitigation for Shortcut Learning: A Data Modeling Framework
协作研究:III:媒介:针对捷径学习的有效检测和缓解:数据建模框架
  • 批准号:
    2310262
  • 财政年份:
    2023
  • 资助金额:
    $ 37.5万
  • 项目类别:
    Standard Grant
Collaborative Research: III: Medium: New Machine Learning Empowered Nanoinformatics System for Advancing Nanomaterial Design
合作研究:III:媒介:新的机器学习赋能纳米信息学系统,促进纳米材料设计
  • 批准号:
    2402311
  • 财政年份:
    2023
  • 资助金额:
    $ 37.5万
  • 项目类别:
    Standard Grant
Collaborative Research: III: Medium: Towards Effective Detection and Mitigation for Shortcut Learning: A Data Modeling Framework
协作研究:III:媒介:针对捷径学习的有效检测和缓解:数据建模框架
  • 批准号:
    2310260
  • 财政年份:
    2023
  • 资助金额:
    $ 37.5万
  • 项目类别:
    Standard Grant
Collaborative Research: III: Medium: New Machine Learning Empowered Nanoinformatics System for Advancing Nanomaterial Design
合作研究:III:媒介:新的机器学习赋能纳米信息学系统,促进纳米材料设计
  • 批准号:
    2347592
  • 财政年份:
    2023
  • 资助金额:
    $ 37.5万
  • 项目类别:
    Standard Grant
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了