CAREER: Declarative Uncertainty

职业:声明的不确定性

基本信息

  • 批准号:
    1750460
  • 负责人:
  • 金额:
    $ 54.23万
  • 依托单位:
  • 依托单位国家:
    美国
  • 项目类别:
    Continuing Grant
  • 财政年份:
    2018
  • 资助国家:
    美国
  • 起止时间:
    2018-03-01 至 2024-02-29
  • 项目状态:
    已结题

项目摘要

Data is messy. Fortunately, with minimal human intervention, good data cleaning heuristics produce mostly reliable, usually actionable information from big, messy data. For instance, analysts might automate their curation workflows by using classifiers to predict missing attribute values, or by using an entity-resolver to find and merge duplicate records. Unfortunately, heuristics are also dangerous, as the result of heuristic curation is often taken as fact. Serious mistakes like people being denied a loan due to someone else's bad credit, 12-year olds being identified as terrorists, or billion dollar investment errors, often result when low-confidence, or uncertain heuristic inferences are treated as truth. Many principled tools like probabilistic databases already exist for automatically tracking potential errors in unreliable data, but these tools are not easy to use. As a result, analysts more often resort to simply documenting potential errors and hoping that anyone using the data will realize the implications. This proposal will enable data management systems that can query and organize uncertain data, without being hard to use. The specific aim of this proposal is to decouple the process of asking questions about uncertain data from mechanical concerns like why the data is uncertain, how the user wants to view uncertainty in query results, or which algorithms should be used. To enable this sort of "declarative uncertainty management," the project team will build on a system called Mimir that virtualizes uncertainty by augmenting data curation workflows (e.g., ETL pipelines) with a form of provenance capture through which heuristics can register alternative outputs (e.g., a schema matcher may register multiple potential matches). This provenance can then be used to synthesize a wide range of different physical and visual representations of uncertainty in data and in query results. To enable declarative uncertainty management, this proposal will address specific problems that fall into two general categories: (1) selecting and efficiently constructing qualitative summaries of uncertainty in query results, and (2) enhancing database query compilers and optimizers to support practical, efficient query processing over uncertain data. For further information see the project web page: http://mimirdb.infoThis award reflects NSF's statutory mission and has been deemed worthy of support through evaluation using the Foundation's intellectual merit and broader impacts review criteria.
数据很混乱。 幸运的是,通过最少的人干预,良好的数据清洁启发式方法大多可从大而混乱的数据中产生可靠的,通常可操作的信息。 例如,分析师可以使用分类器预测缺失属性值或使用实体 - 星期来查找和合并重复记录来自动化其策划工作流程。 不幸的是,由于启发式策划的结果,启发式方法也很危险。 严重的错误,例如由于别人的不良信誉,被确定为恐怖分子或十亿美元的投资错误而被拒绝贷款的严重错误,通常在低信任或不确定的启发式推论被视为真理时通常会导致。 许多原则性的工具(例如概率数据库)已经存在自动跟踪不可靠数据中的潜在错误,但是这些工具不容易使用。 结果,分析师通常会求助于简单地记录潜在错误,并希望任何使用数据的人都会意识到含义。 该建议将启用可以查询和组织不确定数据的数据管理系统,而无需使用。该提案的具体目的是使从机械关注的不确定数据提出问题的过程中,例如为什么数据不确定,用户希望如何查看查询结果中的不确定性或应该使用哪些算法。 为了启用这种“声明性不确定性管理”,项目团队将建立在一个名为Mimir的系统上,该系统通过增强数据策展工作流(例如ETL管道)通过一种出处捕获形式来通过启发式捕获可以注册替代输出(例如,A架构匹配器可以注册多个潜在的竞争)来虚拟地使不确定性。 然后,该出处可用于综合数据和查询结果中不确定性的各种不同的物理和视觉表示。 为了启用声明性的不确定性管理,该提案将解决属于两个一般类别的特定问题:(1)在查询结果中选择并有效地构建不确定性的定性摘要,以及(2)增强数据库查询编译器和优化者,以支持实用,有效的查询处理,而不是不确定的数据。有关更多信息,请参见项目网页:http://mimirdb.infothis Award反映了NSF的法定任务,并使用基金会的知识分子优点和更广泛的影响标准,认为值得通过评估来获得支持。

项目成果

期刊论文数量(11)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
Runtime provenance refinement for notebooks
笔记本的运行时出处细化
Loki: Streamlining Integration and Enrichment
Loki:简化集成和丰富
  • DOI:
  • 发表时间:
    2020
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Spoth, William;Kumari, Poonam;Kennedy, Oliver;Nargesian, Fatemeh
  • 通讯作者:
    Nargesian, Fatemeh
Uncertainty Annotated Databases - A Lightweight Approach for Approximating Certain Answers
不确定性注释数据库 - 近似某些答案的轻量级方法
  • DOI:
    10.1145/3299869.3319887
  • 发表时间:
    2019
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Feng, Su;Huber, Aaron;Glavic, Boris;Kennedy, Oliver
  • 通讯作者:
    Kennedy, Oliver
DataSense: Display Agnostic Data Documentation
DataSense:显示不可知的数据文档
Query Log Compression for Workload Analytics
用于工作负载分析的查询日志压缩
  • DOI:
    10.14778/3291264.3291265
  • 发表时间:
    2018
  • 期刊:
  • 影响因子:
    2.5
  • 作者:
    Xie, Ting;Chandola, Varun;Kennedy, Oliver
  • 通讯作者:
    Kennedy, Oliver
{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ patent.updateTime }}

Oliver Kennedy其他文献

PIP: A database system for great and small expectations
PIP:满足大大小小的期望的数据库系统
Jigsaw: efficient optimization over uncertain enterprise data
Jigsaw:不确定企业数据的高效优化
  • DOI:
  • 发表时间:
    2011
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Oliver Kennedy;Suman Nath
  • 通讯作者:
    Suman Nath
Efficient Approximation of Certain and Possible Answers for Ranking and Window Queries over Uncertain Data (Extended version)
不确定数据的排名和窗口查询的某些和可能答案的有效近似(扩展版)
  • DOI:
    10.48550/arxiv.2302.08676
  • 发表时间:
    2023
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Su Feng;Boris Glavic;Oliver Kennedy
  • 通讯作者:
    Oliver Kennedy
Inventory Allocation for Online Graphical Display Advertising using Multi-objective Optimization
使用多目标优化的在线图形展示广告库存分配
On-Demand Query Result Cleaning
按需查询结果清理
  • DOI:
  • 发表时间:
    2014
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Ying Yang;Oliver Kennedy;Jan Chomicki
  • 通讯作者:
    Jan Chomicki

Oliver Kennedy的其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

{{ truncateString('Oliver Kennedy', 18)}}的其他基金

SCC-PG: A Sustainable and Connected Community-Scale Food System to Empower Consumers, Farmers, and Retailers
SCC-PG:可持续且互联的社区规模食品系统,为消费者、农民和零售商提供支持
  • 批准号:
    2125516
  • 财政年份:
    2021
  • 资助金额:
    $ 54.23万
  • 项目类别:
    Standard Grant
III: Medium: Collaborative Research: U4U - Taming Uncertainty with Uncertainty-Annotated Databases
III:媒介:合作研究:U4U - 利用不确定性注释数据库来克服不确定性
  • 批准号:
    1956149
  • 财政年份:
    2020
  • 资助金额:
    $ 54.23万
  • 项目类别:
    Standard Grant
NSF Student Travel Grant for 2019 Symposium on Cloud Computing (SOCC)
2019 年云计算研讨会 (SOCC) 的 NSF 学生旅费补助
  • 批准号:
    1930814
  • 财政年份:
    2019
  • 资助金额:
    $ 54.23万
  • 项目类别:
    Standard Grant
CIF21 DIBBs: EI: Vizier, Streamlined Data Curation
CIF21 DIBB:EI:Vizier,简化的数据管理
  • 批准号:
    1640864
  • 财政年份:
    2017
  • 资助金额:
    $ 54.23万
  • 项目类别:
    Standard Grant
III: Small: Just in Time Datastructures
III:小:即时数据结构
  • 批准号:
    1617586
  • 财政年份:
    2016
  • 资助金额:
    $ 54.23万
  • 项目类别:
    Standard Grant
CI-P: Planning for a Community Infrastructure to Enable Pocket-Scale Data Management Research
CI-P:规划社区基础设施以实现小型数据管理研究
  • 批准号:
    1629791
  • 财政年份:
    2016
  • 资助金额:
    $ 54.23万
  • 项目类别:
    Standard Grant

相似海外基金

Rule-Guided Behavior across Species:Steps toward Declarative Cognition
跨物种的规则引导行为:走向陈述性认知的步骤
  • 批准号:
    9764411
  • 财政年份:
    2018
  • 资助金额:
    $ 54.23万
  • 项目类别:
Rule-Guided Behavior across Species:Steps toward Declarative Cognition
跨物种的规则引导行为:走向陈述性认知的步骤
  • 批准号:
    10462612
  • 财政年份:
    2018
  • 资助金额:
    $ 54.23万
  • 项目类别:
Rule-Guided Behavior across Species:Steps toward Declarative Cognition
跨物种的规则引导行为:走向陈述性认知的步骤
  • 批准号:
    9594456
  • 财政年份:
    2018
  • 资助金额:
    $ 54.23万
  • 项目类别:
Rule-Guided Behavior across Species:Steps toward Declarative Cognition
跨物种的规则引导行为:走向陈述性认知的步骤
  • 批准号:
    9977228
  • 财政年份:
    2018
  • 资助金额:
    $ 54.23万
  • 项目类别:
Rule-Guided Behavior across Species:Steps toward Declarative Cognition
跨物种的规则引导行为:走向陈述性认知的步骤
  • 批准号:
    10226143
  • 财政年份:
    2018
  • 资助金额:
    $ 54.23万
  • 项目类别:
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了