III: Small: Query Compilation on Probabilistic Databases

III:小:概率数据库上的查询编译

基本信息

  • 批准号:
    1115188
  • 负责人:
  • 金额:
    $ 50万
  • 依托单位:
  • 依托单位国家:
    美国
  • 项目类别:
    Standard Grant
  • 财政年份:
    2011
  • 资助国家:
    美国
  • 起止时间:
    2011-08-01 至 2015-07-31
  • 项目状态:
    已结题

项目摘要

The goal of probabilistic databases is to manage large databases where the data is uncertain. Applications include Web-scale information extraction, RFID systems, scientific data management, biomedical data integration, business intelligence, data cleaning, approximate schema mappings, and data deduplication. Despite the huge demand and the intense recent research on probabilistic databases, no robust probabilistic database systems exist to date. The reason is that the probabilistic inference problem is, in general, intractable. Fortunately, in databases there are two distinct inputs to the probabilistic inference problem: the query and the database instance. This has led recently to the discovery of safe queries, which are queries that can be evaluated efficiently on any input database, and to new probabilistic inference algorithms that exploit the structure of the query. However, unsafe queries remain a major challenge in probabilistic databases.This project studies novel algorithms for evaluating unsafe queries on probabilistic database, with guaranteed performance. It uses a novel approach, query compilation, which translates the query into one of four targets: OBDDs, FBDDs, d-DNNFs, and circuits using inclusion/exclusion nodes. The project pursues two thrusts: (1) It develops instance-dependent compilation techniques that significantly extend the reach of instance-independent techniques used in safe queries. (2) It develops approximate query compilation techniques , which always run efficiently, even on intractable query, instance pairs, by sacrificing accuracy. These algorithms are conservative, in the sense that they return correct probabilities in all cases when the input query, instance pair is tractable.The Intellectual Merit of this project consists of new techniques for compiling queries into one of four compilation targets, OBDD, FBDD, d-DNNF, and inclusion/exclusion-based inference, using both exact inference (without performance guarantees), and approximate inference (with performance guarantees). It expands our understanding of probabilistic inference, and leads to practical approaches for probabilistic database engines. As Broader Impact, the project benefits a large class of applications that require general purpose management of uncertain data, ranging from large-scale information extraction systems, to scientific data management, to business intelligence. The project gradually incorporates topics from probabilistic data into into a curriculum for graduate level education; query compilation is already discussed in the PI's book on Probabilistic Databases ( http://dx.doi.org/10.2200/S00362ED1V01Y201105DTM016), a graduate-level textbook.For further information see the project web site at the URL: http://www.cs.washington.edu/homes/suciu/project-querycompilation.html
概率数据库的目标是管理数据不确定的大型数据库。应用包括网络规模的信息提取、RFID 系统、科学数据管理、生物医学数据集成、商业智能、数据清理、近似模式映射和重复数据删除。尽管对概率数据库有巨大的需求和最近的深入研究,但迄今为止还不存在健壮的概率数据库系统。原因是概率推理问题一般来说是棘手的。幸运的是,在数据库中,概率推理问题有两个不同的输入:查询和数据库实例。这最近导致了安全查询的发现,安全查询是可以在任何输入数据库上有效评估的查询,以及利用查询结构的新概率推理算法。然而,不安全查询仍然是概率数据库中的一个主要挑战。该项目研究了评估概率数据库上不安全查询的新算法,并保证性能。它使用一种新颖的方法,即查询编译,将查询转换为四个目标之一:OBDD、FBDD、d-DNNF 和使用包含/排除节点的电路。该项目追求两个目标:(1)它开发依赖于实例的编译技术,显着扩展了安全查询中使用的与实例无关的技术的范围。 (2) 它开发了近似查询编译技术,即使在棘手的查询、实例对上,这种技术也始终能够高效运行,但会牺牲准确性。这些算法是保守的,因为当输入查询、实例对易于处理时,它们在所有情况下都会返回正确的概率。该项目的智力优点包括将查询编译到四个编译目标之一的新技术,即 OBDD、FBDD、 d-DNNF 和基于包含/排除的推理,使用精确推理(无性能保证)和近似推理(有性能保证)。它扩展了我们对概率推理的理解,并带来了概率数据库引擎的实用方法。作为更广泛的影响,该项目使一大批需要对不确定数据进行通用管理的应用程序受益,从大规模信息提取系统到科学数据管理,再到商业智能。该项目逐渐将概率数据主题纳入研究生教育课程; PI 的关于概率数据库的书 (http://dx.doi.org/10.2200/S00362ED1V01Y201105DTM016) 中已经讨论了查询编译,这是一本研究生水平的教科书。有关更多信息,请参阅项目网站,网址为:http:// www.cs.washington.edu/homes/suciu/project-querycompilation.html

项目成果

期刊论文数量(0)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ patent.updateTime }}

Dan Suciu其他文献

SlimShot: In-Database Probabilistic Inference for Knowledge Bases
SlimShot:知识库的数据库内概率推理
A Dichotomy for the Generalized Model Counting Problem for Unions of Conjunctive Queries
连接查询并集广义模型计数问题的二分法
Cytosolic protein ubiquitylation in normal and endotoxin stimulated human peripheral blood mononuclear cells
正常和内毒素刺激的人外周血单核细胞中胞质蛋白的泛素化
  • DOI:
  • 发表时间:
    2000
  • 期刊:
  • 影响因子:
    0
  • 作者:
    M. Majetschak;Dan Suciu;K. Häsler;U. Obertacke;F. Schade;H. Jennissen
  • 通讯作者:
    H. Jennissen
Optimizing Large-Scale Semi-Naïve Datalog Evaluation in Hadoop
优化 Hadoop 中的大规模半简单数据记录评估
  • DOI:
  • 发表时间:
    2012
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Marianne Shaw;Paraschos Koutris;Bill Howe;Dan Suciu
  • 通讯作者:
    Dan Suciu
Entity Matching in the Wild: A Consistent and Versatile Framework to Unify Data in Industrial Applications
野外实体匹配:统一工业应用中数据的一致且多功能的框架

Dan Suciu的其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

{{ truncateString('Dan Suciu', 18)}}的其他基金

III: Small: Datalog with Aggregates: Complexity, Optimization, Evaluation
III:小:带有聚合的数据记录:复杂性、优化、评估
  • 批准号:
    2314527
  • 财政年份:
    2023
  • 资助金额:
    $ 50万
  • 项目类别:
    Standard Grant
NSF-BSF: III: Small: Data Driven Schema
NSF-BSF:III:小型:数据驱动模式
  • 批准号:
    2109922
  • 财政年份:
    2021
  • 资助金额:
    $ 50万
  • 项目类别:
    Continuing Grant
III: Medium: Collaborative Research: Reasoning about Optimizers for Data-Intensive Systems
III:媒介:协作研究:数据密集型系统优化器的推理
  • 批准号:
    1954222
  • 财政年份:
    2020
  • 资助金额:
    $ 50万
  • 项目类别:
    Continuing Grant
III:Small: Optimal Query Processing meets Information Theory: from Proofs to Algorithms
III:Small:最优查询处理遇到信息论:从证明到算法
  • 批准号:
    1907997
  • 财政年份:
    2019
  • 资助金额:
    $ 50万
  • 项目类别:
    Continuing Grant
III: Medium: Collaborative Research: A Unified and Declarative Approach to Causal Analysis for Big Data
III:媒介:协作研究:大数据因果分析的统一声明式方法
  • 批准号:
    1703281
  • 财政年份:
    2017
  • 资助金额:
    $ 50万
  • 项目类别:
    Standard Grant
III: Small: Scalable Probabilistic Inference for Large Knowledge Bases
III:小:大型知识库的可扩展概率推理
  • 批准号:
    1614738
  • 财政年份:
    2016
  • 资助金额:
    $ 50万
  • 项目类别:
    Standard Grant
AitF: FULL: Query Processing with Optimal Communication Cost
AitF:FULL:具有最佳通信成本的查询处理
  • 批准号:
    1535565
  • 财政年份:
    2015
  • 资助金额:
    $ 50万
  • 项目类别:
    Standard Grant
BIGDATA: Mid-Scale: DCM: A Formal Foundation for Big Data Management
BIGDATA:中型:DCM:大数据管理的正式基础
  • 批准号:
    1247469
  • 财政年份:
    2013
  • 资助金额:
    $ 50万
  • 项目类别:
    Continuing Grant
III: Small: BeliefDB - Adding Belief Annotations to Databases
III:小:BeliefDB - 向数据库添加信念注释
  • 批准号:
    0915054
  • 财政年份:
    2009
  • 资助金额:
    $ 50万
  • 项目类别:
    Standard Grant
III COR: Query Evaluation and View Materialization in Probabilistic Data
III COR:概率数据中的查询评估和视图具体化
  • 批准号:
    0713576
  • 财政年份:
    2007
  • 资助金额:
    $ 50万
  • 项目类别:
    Standard Grant

相似国自然基金

单细胞分辨率下的石杉碱甲介导小胶质细胞极化表型抗缺血性脑卒中的机制研究
  • 批准号:
    82304883
  • 批准年份:
    2023
  • 资助金额:
    30 万元
  • 项目类别:
    青年科学基金项目
小分子无半胱氨酸蛋白调控生防真菌杀虫活性的作用与机理
  • 批准号:
    32372613
  • 批准年份:
    2023
  • 资助金额:
    50 万元
  • 项目类别:
    面上项目
诊疗一体化PS-Hc@MB协同训练介导脑小血管病康复的作用及机制研究
  • 批准号:
    82372561
  • 批准年份:
    2023
  • 资助金额:
    49 万元
  • 项目类别:
    面上项目
非小细胞肺癌MECOM/HBB通路介导血红素代谢异常并抑制肿瘤起始细胞铁死亡的机制研究
  • 批准号:
    82373082
  • 批准年份:
    2023
  • 资助金额:
    49 万元
  • 项目类别:
    面上项目
FATP2/HILPDA/SLC7A11轴介导肿瘤相关中性粒细胞脂代谢重编程影响非小细胞肺癌放疗免疫的作用和机制研究
  • 批准号:
    82373304
  • 批准年份:
    2023
  • 资助金额:
    49 万元
  • 项目类别:
    面上项目

相似海外基金

III: Small: Query-By-Sketch: Simplifying Video Clip Retrieval Through A Visual Query Paradigm
III:小:按草图查询:通过可视化查询范式简化视频剪辑检索
  • 批准号:
    2335881
  • 财政年份:
    2024
  • 资助金额:
    $ 50万
  • 项目类别:
    Standard Grant
III: Small: RUI: Designing Structure-Phenotype Query-Retrieval and Analysis Systems for Microscopy-Based Whole Organism Studies
III:小:RUI:为基于显微镜的整个生物体研究设计结构表型查询检索和分析系统
  • 批准号:
    2401096
  • 财政年份:
    2023
  • 资助金额:
    $ 50万
  • 项目类别:
    Standard Grant
III: Small: Bringing database query optimization to data intensive applications
III:小型:将数据库查询优化引入数据密集型应用程序
  • 批准号:
    2008295
  • 财政年份:
    2020
  • 资助金额:
    $ 50万
  • 项目类别:
    Standard Grant
III: Small: COMPASS: Online Sketch-based Query Optimization for In-Memory Databases
III:小:COMPASS:内存数据库基于草图的在线查询优化
  • 批准号:
    2008815
  • 财政年份:
    2020
  • 资助金额:
    $ 50万
  • 项目类别:
    Standard Grant
III:Small: Optimal Query Processing meets Information Theory: from Proofs to Algorithms
III:Small:最优查询处理遇到信息论:从证明到算法
  • 批准号:
    1907997
  • 财政年份:
    2019
  • 资助金额:
    $ 50万
  • 项目类别:
    Continuing Grant
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了