III: Small: Task-aware Materialization for Fast Data Analytics

III:小型:用于快速数据分析的任务感知物化

基本信息

  • 批准号:
    1910014
  • 负责人:
  • 金额:
    $ 42.9万
  • 依托单位:
  • 依托单位国家:
    美国
  • 项目类别:
    Continuing Grant
  • 财政年份:
    2019
  • 资助国家:
    美国
  • 起止时间:
    2019-09-01 至 2023-08-31
  • 项目状态:
    已结题

项目摘要

The data-to-knowledge pipeline is central to our data-driven world. It consumes data in raw format and then cleans, transforms, integrates, stores, processes, and analyzes the data to obtain knowledge in a usable format. Data analytics pipelines are complex and their workflows typically consist of several simpler tasks chained together. To speed up such pipelines, a ubiquitous optimization technique is to materialize the intermediate result of a task, so that downstream tasks can access the intermediate data as efficiently as possible. Existing materialization techniques suffer from several drawbacks, including prohibitively large cost in terms of storage and preprocessing time. To address these drawbacks, this proposal will develop smart materialization algorithms that can significantly accelerate the performance of data analytics applications. As a result, it will enable data scientists to obtain actionable insights faster and will impact research in areas such as biology, economics, sociology and the medical sciences. The goal of this project is to design, implement and evaluate materialization techniques using three novel ideas: task-aware materialization; fine-grained decisions on what and how to materialize; and multiple design points that can trade off space for time to achieve optimal performance of data analytics pipelines. The project will also explore how to design data structures for materialization that are adaptive to changes in the data and the downstream workload. From a theoretical viewpoint, the proposed research will aim to obtain theoretical guarantees on the tradeoff between space and time for materialization for different tasks. From a practical viewpoint, it will result in implementing and evaluating the developed algorithms on real-world data analytics applications, including visualization through lineage tracking, statistical inference, pattern retrieval in graphs and social network analysis.This award reflects NSF's statutory mission and has been deemed worthy of support through evaluation using the Foundation's intellectual merit and broader impacts review criteria.
数据到知识的管道是我们数据驱动的世界的核心。它使用原始格式的数据,然后清理、转换、集成、存储、处理和分析数据,以获得可用格式的知识。数据分析管道很复杂,其工作流程通常由链接在一起的几个更简单的任务组成。为了加速这样的管道,普遍存在的优化技术是将任务的中间结果具体化,以便下游任务可以尽可能高效地访问中间数据。现有的物化技术存在几个缺点,包括存储和预处理时间方面的成本过高。为了解决这些缺点,该提案将开发智能物化算法,可以显着提高数据分析应用程序的性能。因此,它将使数据科学家能够更快地获得可行的见解,并将影响生物学、经济学、社会学和医学等领域的研究。 该项目的目标是使用三个新颖的想法来设计、实现和评估物化技术:任务感知物化;关于实现什么以及如何实现的细粒度决策;以及多个设计点,可以权衡空间与时间,以实现数据分析管道的最佳性能。该项目还将探索如何设计物化数据结构,以适应数据和下游工作负载的变化。从理论角度来看,所提出的研究旨在为不同任务的具体化的空间和时间之间的权衡获得理论保证。从实践的角度来看,它将导致在现实世界的数据分析应用程序中实施和评估所开发的算法,包括通过谱系跟踪、统计推断、图形模式检索和社交网络分析进行可视化。该奖项反映了 NSF 的法定使命,并已通过使用基金会的智力优点和更广泛的影响审查标准进行评估,认为值得支持。

项目成果

期刊论文数量(6)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
Fast Join Project Query Evaluation using Matrix Multiplication
使用矩阵乘法快速连接项目查询评估
Enumeration Algorithms for Conjunctive Queries with Projection
带投影的联合查询的枚举算法
  • DOI:
    10.4230/lipics.icdt.2021.14
  • 发表时间:
    2021-01
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Deep, Shaleen;Hu, Xiao;Koutris, Paraschos
  • 通讯作者:
    Koutris, Paraschos
Space-Time Tradeoffs for Conjunctive Queries with Access Patterns
具有访问模式的联合查询的时空权衡
Ranked Enumeration of Conjunctive Query Results
联合查询结果的排名枚举
  • DOI:
    10.4230/lipics.icdt.2021.5
  • 发表时间:
    2021-01
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Deep, Shaleen;Koutris, Paraschos
  • 通讯作者:
    Koutris, Paraschos
General Space-Time Tradeoffs via Relational Queries
通过关系查询进行一般时空权衡
{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ patent.updateTime }}

Paraschos Koutris其他文献

Deterministic load balancing for parallel joins
并行连接的确定性负载平衡
  • DOI:
  • 发表时间:
    2016
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Paraschos Koutris;Nivetha Singara Vadivelu
  • 通讯作者:
    Nivetha Singara Vadivelu
A Dichotomy on the Complexity of Consistent Query Answering for Atoms with Simple Keys
简单键原子一致查询应答复杂性的二分法
Towards Better Understanding of the Performance and Design of Datalog Systems
更好地理解数据记录系统的性能和设计
  • DOI:
  • 发表时间:
    2022
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Zhiwei Fan;Sunil Mallireddy;Paraschos Koutris
  • 通讯作者:
    Paraschos Koutris
A Comparative Exploration of ML Techniques for Tuning Query Degree of Parallelism
调优查询并行度的 ML 技术的比较探索
  • DOI:
  • 发表时间:
    2020
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Zhiwei Fan;Rathijit Sen;Paraschos Koutris;Aws Albarghouthi
  • 通讯作者:
    Aws Albarghouthi
LinCQA: Faster Consistent Query Answering with Linear Time Guarantees
LinCQA:具有线性时间保证的更快一致的查询应答
  • DOI:
  • 发表时间:
    2022
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Zhiwei Fan;Paraschos Koutris;Xiating Ouyang;Jef Wijsen
  • 通讯作者:
    Jef Wijsen

Paraschos Koutris的其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

{{ truncateString('Paraschos Koutris', 18)}}的其他基金

CRII: III: Partition-aware Parallel Query Processing
CRII:III:分区感知并行查询处理
  • 批准号:
    1850348
  • 财政年份:
    2019
  • 资助金额:
    $ 42.9万
  • 项目类别:
    Standard Grant

相似国自然基金

小分子代谢物Catechin与TRPV1相互作用激活外周感觉神经元介导尿毒症瘙痒的机制研究
  • 批准号:
    82371229
  • 批准年份:
    2023
  • 资助金额:
    49 万元
  • 项目类别:
    面上项目
DHEA抑制小胶质细胞Fis1乳酸化修饰减轻POCD的机制
  • 批准号:
    82301369
  • 批准年份:
    2023
  • 资助金额:
    30 万元
  • 项目类别:
    青年科学基金项目
SETDB1调控小胶质细胞功能及参与阿尔茨海默病发病机制的研究
  • 批准号:
    82371419
  • 批准年份:
    2023
  • 资助金额:
    49 万元
  • 项目类别:
    面上项目
PTBP1驱动H4K12la/BRD4/HIF1α复合物-PKM2正反馈环路促进非小细胞肺癌糖代谢重编程的机制研究及治疗方案探索
  • 批准号:
    82303616
  • 批准年份:
    2023
  • 资助金额:
    30 万元
  • 项目类别:
    青年科学基金项目

相似海外基金

III: Small: Collaborative Research: Structured Methods for Multi-Task Learning
III:小:协作研究:多任务学习的结构化方法
  • 批准号:
    1908166
  • 财政年份:
    2018
  • 资助金额:
    $ 42.9万
  • 项目类别:
    Standard Grant
III: Small: Collaborative Research: Structured Methods for Multi-Task Learning
III:小:协作研究:多任务学习的结构化方法
  • 批准号:
    1615035
  • 财政年份:
    2016
  • 资助金额:
    $ 42.9万
  • 项目类别:
    Standard Grant
III: Small: Robust Algorithms for Multi-Task Learning of Spatio-Temporal Data
III:小:时空数据多任务学习的鲁棒算法
  • 批准号:
    1615612
  • 财政年份:
    2016
  • 资助金额:
    $ 42.9万
  • 项目类别:
    Standard Grant
III: Small: Collaborative Research: Structured Methods for Multi-Task Learning
III:小:协作研究:多任务学习的结构化方法
  • 批准号:
    1615035
  • 财政年份:
    2016
  • 资助金额:
    $ 42.9万
  • 项目类别:
    Standard Grant
III: Small: Collaborative Research: Structured Methods for Multi-Task Learning
III:小:协作研究:多任务学习的结构化方法
  • 批准号:
    1615597
  • 财政年份:
    2016
  • 资助金额:
    $ 42.9万
  • 项目类别:
    Standard Grant
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了