CSR: Small: Scalable Fine-Grain Lineage for Debugging Data-Intensive Workflows

CSR:小型:用于调试数据密集型工作流程的可扩展细粒度谱系

基本信息

  • 批准号:
    1219220
  • 负责人:
  • 金额:
    $ 45万
  • 依托单位:
  • 依托单位国家:
    美国
  • 项目类别:
    Standard Grant
  • 财政年份:
    2012
  • 资助国家:
    美国
  • 起止时间:
    2012-09-01 至 2018-03-31
  • 项目状态:
    已结题

项目摘要

This project addresses the next major impediment to the continued adoptionof "big-data" analytics---the management of their life cycle, whichincludes debugging, tuning, and auditing. Today, data-intensive analyticsare improving operations across multiple industries, translating terabytesof raw data into useful data analysis. Taking advantage of big data willbe necessary to sustain competitive advantages for areas ranging from powergeneration, to retail, oil exploration, manufacturing, various scientificdisciplines, and national security. However, the extreme scalability ofthese data processing architectures hides inefficiencies and obfuscatesperformance analysis, creating both obvious and hidden costs to theiradoption. Tuning and debugging large data-intensive workflows is currentlya black art that mostly consists of tedious manual analysis.The research seeks to dramatically alter how data scientists design anddebug their analytics to sidestep this authoring and deployment bottleneck.In particular, the PI's are developing scalable, efficient architecturesfor capturing fine-grain data lineage, information that tracks the use ofdata through the analytic pipeline, from a range of data-intensive scalablecomputing (DISC) systems. Such lineage serves as a basis for discoveringinefficiencies and suggesting optimizations via step-wise debugging, faulttracing, anomaly detection, and lineage-driven data cleaning and datamining. The development and open-source release of such lineage-captureand analysis platforms promises to dramatically accelerate the adoption ofbig-data analytics.
该项目解决了继续采用“大数据”分析的下一个主要障碍——生命周期的管理,包括调试、调整和审计。 如今,数据密集型分析正在改善多个行业的运营,将数 TB 的原始数据转化为有用的数据分析。 利用大数据对于维持从发电、零售、石油勘探、制造、各种科学学科和国家安全等领域的竞争优势是必要的。 然而,这些数据处理架构的极端可扩展性隐藏着效率低下和性能分析混乱的问题,从而为它们的采用带来了明显和隐性的成本。 调整和调试大型数据密集型工作流程目前是一门黑术,主要由繁琐的手动分析组成。该研究旨在极大地改变数据科学家设计和调试其分析的方式,以避开这种创作和部署瓶颈。特别是,PI 正在开发可扩展的、用于从一系列数据密集型可扩展计算 (DISC) 系统中捕获细粒度数据沿袭的高效架构,即通过分析管道跟踪数据使用情况的信息。 这种沿袭可以作为发现效率低下的基础,并通过逐步调试、故障跟踪、异常检测以及沿袭驱动的数据清理和数据挖掘提出优化建议。 这种谱系捕获和分析平台的开发和开源发布有望大大加速大数据分析的采用。

项目成果

期刊论文数量(0)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ patent.updateTime }}

Alin Deutsch其他文献

Conditional Routing
条件路由
  • DOI:
    10.1007/978-0-387-39940-9_2271
  • 发表时间:
    2024-09-14
  • 期刊:
  • 影响因子:
    0
  • 作者:
    K. A. Ross;C. Jensen;R. Snodgrass;C. Dyreson;Spiros Skiadopoulos;Cristina Sirangelo;M. Larsgaard;G. Grahne;Daniel Kifer;H. Jacobsen;H. Hinterberger;Alin Deutsch;Alan Nash;K. Wada;Wil M.P. van der Aalst;C. Dyreson;P. Mitra;I. Witten;Bing Liu;C. Aggarwal;M. Tamer Özsu;Chimezie Ogbuji;Chintan Patel;C. Weng;Adam Wright;Amnon Shabo (Shvo);Dan Russler;R. Rocha;Y. Lussier;James L. Chen;Mohammed J. Zaki;Antonio Corral;M. Vassilakopoulos;D. Gunopulos;Dietmar Wolfram;S. Venkatasubramanian;M. Vazirgiannis;I. Davidson;Sunita Sarawagi;L. Peyton;Gregory D. Speegle;V. Vianu;D. V. Gucht;Opher Etzion;F. Curbera;AnnMarie Ericsson;Mikael Berndtsson;J. Mellin;P. Gray;Goce Trajcevski;O. Wolfson;P. Scheuermann;C. Dorai;M. Weiner;Ale;er Borgida;er;J. Mylopoulos;G. Vossen;A. Reuter;V. Tannen;S. Elnikety;A. Fekete;L. Bertossi;F. Geerts;W. Fan;T. Westerveld;C. Gurrin;Jaana Kekäläinen;Paavo Arvola;Marko Junkkari;K. Mouratidis;J. Yu;Yong Yao;J. Gehrke;S. Babu;N. Palmer;C. Leung;Michael W. Carroll;A. Gokhale;M. Ouzzani;Brahim Medjahed;A. Elmagarmid;S. Manegold;Graham Cormode;Serguei Mankovskii;Donghui Zhang;T. Härder;Wei Gao;Cheng Niu;Qing Li;Yu Yang;Payam Refaeilzadeh;Lei Tang;Huan Liu;T. Pedersen;Konstantinos Morfonios;Y. Ioannidis;Michael H. Böhlen;R. Snodgrass;Lei Chen
  • 通讯作者:
    Lei Chen
A system for specification and verification of interactive, data-driven web applications
用于规范和验证交互式、数据驱动的 Web 应用程序的系统
A Spin-based Verifier for Artifact Systems
用于工件系统的基于自旋的验证器
  • DOI:
  • 发表时间:
    2017
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Yuliang Li;Alin Deutsch;V. Vianu
  • 通讯作者:
    V. Vianu
Privacy in GLAV Information Integration
GLAV 信息集成中的隐私
Toward Scalable Hybrid Stores
迈向可扩展的混合商店
  • DOI:
  • 发表时间:
    2015-06-14
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Francesca Bugiotti;Damian Bursztyn;Alin Deutsch;Ioana Ileana;I. Manolescu
  • 通讯作者:
    I. Manolescu

Alin Deutsch的其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

{{ truncateString('Alin Deutsch', 18)}}的其他基金

III: Small: Personalized Inconsistency Resolution in Online Databases
III:小:在线数据库中的个性化不一致解决方案
  • 批准号:
    1117527
  • 财政年份:
    2011
  • 资助金额:
    $ 45万
  • 项目类别:
    Standard Grant
DC: Large: Collaborative Research: ASTERIX: A Highly Scalable Parallel Platform for Semistructured Data Management and Analysis
DC:大型:协作研究:ASTERIX:用于半结构化数据管理和分析的高度可扩展并行平台
  • 批准号:
    0910820
  • 财政年份:
    2009
  • 资助金额:
    $ 45万
  • 项目类别:
    Standard Grant
CAREER: XML Middleware for Privacy-Preserving Database Publishing
职业:用于隐私保护数据库发布的 XML 中间件
  • 批准号:
    0347968
  • 财政年份:
    2004
  • 资助金额:
    $ 45万
  • 项目类别:
    Continuing Grant

相似国自然基金

小分子代谢物Catechin与TRPV1相互作用激活外周感觉神经元介导尿毒症瘙痒的机制研究
  • 批准号:
    82371229
  • 批准年份:
    2023
  • 资助金额:
    49 万元
  • 项目类别:
    面上项目
DHEA抑制小胶质细胞Fis1乳酸化修饰减轻POCD的机制
  • 批准号:
    82301369
  • 批准年份:
    2023
  • 资助金额:
    30 万元
  • 项目类别:
    青年科学基金项目
SETDB1调控小胶质细胞功能及参与阿尔茨海默病发病机制的研究
  • 批准号:
    82371419
  • 批准年份:
    2023
  • 资助金额:
    49 万元
  • 项目类别:
    面上项目
PTBP1驱动H4K12la/BRD4/HIF1α复合物-PKM2正反馈环路促进非小细胞肺癌糖代谢重编程的机制研究及治疗方案探索
  • 批准号:
    82303616
  • 批准年份:
    2023
  • 资助金额:
    30 万元
  • 项目类别:
    青年科学基金项目

相似海外基金

CSR: Small: CONCERT: Designing Scalable Communication Runtimes with On-the-fly Compression for HPC and AI Applications on Heterogeneous Architectures
CSR:小型:CONCERT:为异构架构上的 HPC 和 AI 应用程序设计具有动态压缩的可扩展通信运行时
  • 批准号:
    2312927
  • 财政年份:
    2023
  • 资助金额:
    $ 45万
  • 项目类别:
    Standard Grant
CSR: Small: Toward a Scalable, Multi-Tenant, Edge-Cloud Infrastructure for Real-Time Computation
CSR:小:迈向可扩展、多租户、边缘云实时计算基础设施
  • 批准号:
    1815690
  • 财政年份:
    2018
  • 资助金额:
    $ 45万
  • 项目类别:
    Standard Grant
CSR:NeTS:Small:GigaPaxos: System Support for Group-Scalable, Reconfigurable Replica Coordination
CSR:NeTS:Small:GigaPaxos:对组可扩展、可重新配置副本协调的系统支持
  • 批准号:
    1717132
  • 财政年份:
    2017
  • 资助金额:
    $ 45万
  • 项目类别:
    Standard Grant
CSR: SMALL: Virtualized Accelerators for Scalable, Composable Architectures
CSR:小型:用于可扩展、可组合架构的虚拟化加速器
  • 批准号:
    1718160
  • 财政年份:
    2017
  • 资助金额:
    $ 45万
  • 项目类别:
    Standard Grant
CSR: Small: Design and Optimization of Scalable Concurrent Data Structures for Multi-Core Systems
CSR:小型:多核系统可扩展并发数据结构的设计和优化
  • 批准号:
    1619197
  • 财政年份:
    2016
  • 资助金额:
    $ 45万
  • 项目类别:
    Standard Grant
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了