III: Small: Data Analysis in the Cloud with Guaranteed and Explainable Performance
III:小型:云端数据分析,性能有保证且可解释
基本信息
- 批准号:1524535
- 负责人:
- 金额:$ 50万
- 依托单位:
- 依托单位国家:美国
- 项目类别:Standard Grant
- 财政年份:2015
- 资助国家:美国
- 起止时间:2015-09-01 至 2019-08-31
- 项目状态:已结题
- 来源:
- 关键词:
项目摘要
Increasingly many users have access to large datasets that they need to analyze. Astronomers, oceanographers, and other domain scientists rely on data analysis for their science. Journalists may want to analyze data to use in their articles. Over the past several years, cloud service providers have been offering an increasingly large selection of data management services for data analytics (e.g., Amazon Elastic MapReduce or Google BigQuery). Cloud services provide a seamless access to powerful data analysis tools, often directly through the browser. Too many services, however, remain too close to the traditional mode of operating a database management system. They reveal too much information about their internal architecture and deployment: Users are required to reason at the level of service instances, instance types, and gigabytes processed. As a result, users today must be data management experts to choose between these services and leverage them in a cost-effective manner. This project will develop new data management techniques that will enable cloud service providers to isolate users from the details of their service internals while offering the ability to trade off price and performance. The project will further develop tools to explain performance and help users re-write their queries to improve it.More specifically, the project will develop new approaches to (1) predict not only the query runtime but whether a query is likely to execute slower than estimated due to failures, skew, cardinality estimation errors, or contention; (2) guarantee query runtimes by dynamically changing both the resources allocated to a query and its failure-handling and skew-handling mechanisms as needed; (3) post specific slowdown factors in case of heavy load and guarantee them through novel scheduling algorithms; and (4) explain query performance and suggest rewrites in a way that does not require users to understand query plans. The project will implement all of the algorithms in the open source Myria cloud data management system (and service) recently developed and in continuous operation at the University of Washington.For further information see the project web site at: http://cloudperf.cs.washington.edu
越来越多的用户可以访问他们需要分析的大型数据集。天文学家,海洋学家和其他领域科学家依靠其科学的数据分析。记者可能想分析以在其文章中使用的数据。在过去的几年中,云服务提供商一直为数据分析提供越来越多的数据管理服务(例如,亚马逊弹性MapReduce或Google Bigquery)。通常直接通过浏览器直接通过浏览器,云服务可无缝访问强大的数据分析工具。但是,太多的服务与操作数据库管理系统的传统方式太接近了。他们揭示了有关其内部体系结构和部署的太多信息:需要用户在处理的服务实例,实例类型和千兆字节上进行推理。结果,今天的用户必须是数据管理专家,以在这些服务之间进行选择,并以具有成本效益的方式利用它们。该项目将开发新的数据管理技术,这将使云服务提供商能够将用户与服务内部的详细信息隔离,同时提供交易价格和绩效的能力。该项目将进一步开发工具来解释性能并帮助用户重新编写其查询以改进它。更具体地说,该项目将开发新的方法来(1)不仅预测查询运行时,还可以预测查询是否可能比由于失败,偏斜,心脏限额估计错误或竞争而导致的估计值较慢; (2)通过动态更改分配给查询的资源及其故障处理和偏向处理机制来保证查询运行时; (3)在重负荷的情况下,在特定的放缓因子上发布特定的放缓因子,并通过新颖的调度算法来保证它们; (4)解释查询性能,并建议以不需要用户了解查询计划的方式重写。 该项目将在最近开发的开源Myria Cloud数据管理系统(和服务)中实施所有算法,并在华盛顿大学连续运行。有关更多信息,请参见项目网站:http://cloudperf.cs.washington.edu
项目成果
期刊论文数量(0)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
数据更新时间:{{ journalArticles.updateTime }}
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
数据更新时间:{{ journalArticles.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ monograph.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ sciAawards.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ conferencePapers.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ patent.updateTime }}
Magdalena Balazinska其他文献
Finiteness
有限性
- DOI:
- 发表时间:
2009 - 期刊:
- 影响因子:0
- 作者:
Susan Dumais;Magdalena Balazinska;Jeong;Mehul Shah;Raimondo Schettini;Gianluigi Ciocca;Isabella Gagliardi;Manoranjan Dash;Poon Wei Koot;Benjamin Bustos;Tobias Schreck;Vassilis Plachouras;Michael F. Goodchild;Val Tannen;C. S. Jensen;R. Snodgrass;Aidong Zhang;Bharat Bhargava;Phillip B. Gibbons;Ethan Zhang;Yi Zhang;Soumen Chakrabarti;Alin Deutsch;Jessica Kennedy;A. Cannon;Marcelo Arenas;P. Gray;Ke Deng;D. Woodruff;Jun Huan;Ahmed Metwally;C. Leung;Hong Cheng;Jiawei Han;Antti Ukkonen;Cai;G. Dobbie;Tok Wang Ling;Solmaz Kolahi;Gabriella Pasi;V. Novák - 通讯作者:
V. Novák
USENIX Association Proceedings of MobiSys 2003 : The First International Conference on Mobile Systems , Applications , and Services
- DOI:
- 发表时间:
2003 - 期刊:
- 影响因子:0
- 作者:
Magdalena Balazinska - 通讯作者:
Magdalena Balazinska
Literature Survey of Clone Detection Techniques
克隆检测技术文献综述
- DOI:
10.5120/17355-7858 - 发表时间:
2014 - 期刊:
- 影响因子:0
- 作者:
Sonam Gupta;P. C. Gupta;Brenda S. Baker;Magdalena Balazinska;Ettore Merlo;Michel Dagenais;Bruno Lague;Hamid Basit;Simon Pugliesi;William Smyth;Andrei Turpin;Ira Baxter;A. Yahin;Leonardo Moura;Marcelo Sant;J. Cordy;Thomas Dean - 通讯作者:
Thomas Dean
Magdalena Balazinska的其他文献
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
{{ truncateString('Magdalena Balazinska', 18)}}的其他基金
III: Medium: VOCAL: Video Organization and Interactive Compositional AnaLytics
III:媒介:声乐:视频组织和交互式构图分析
- 批准号:
2211133 - 财政年份:2022
- 资助金额:
$ 50万 - 项目类别:
Standard Grant
HDR: I-DIRSE-FW: Accelerating the Engineering Design and Manufacturing Life-Cycle with Data Science
HDR:I-DIRSE-FW:利用数据科学加速工程设计和制造生命周期
- 批准号:
1934292 - 财政年份:2019
- 资助金额:
$ 50万 - 项目类别:
Continuing Grant
SHF: Medium: A Visual Cloud for Virtual Reality Applications
SHF:Medium:虚拟现实应用程序的视觉云
- 批准号:
1703051 - 财政年份:2017
- 资助金额:
$ 50万 - 项目类别:
Standard Grant
IGERT-CIF21: Big Data U: A Program for Integrated Multidisciplinary Education and Research for Big Data Science
IGERT-CIF21:大数据 U:大数据科学综合多学科教育和研究计划
- 批准号:
1258485 - 财政年份:2013
- 资助金额:
$ 50万 - 项目类别:
Continuing Grant
CiC RDDC: Relational Data Markets in the Cloud
CiC RDDC:云中的关系数据市场
- 批准号:
1047815 - 财政年份:2011
- 资助金额:
$ 50万 - 项目类别:
Standard Grant
III: Large: Collaborative Research: SciDB - An Array Oriented Data Management System for Massive Scale Scientific Data
III:大型:协作研究:SciDB - 用于大规模科学数据的面向数组的数据管理系统
- 批准号:
1110370 - 财政年份:2011
- 资助金额:
$ 50万 - 项目类别:
Continuing Grant
CDI - Type II: Transforming Community-Based Elder Care through Heterogeneous Activity Sensing Analytics
CDI - II 类:通过异构活动感知分析转变基于社区的老年护理
- 批准号:
1028195 - 财政年份:2010
- 资助金额:
$ 50万 - 项目类别:
Standard Grant
CAREER: Interactive and Collaborative Data Management in the Cloud
职业:云中的交互式和协作数据管理
- 批准号:
0845397 - 财政年份:2009
- 资助金额:
$ 50万 - 项目类别:
Standard Grant
III-COR: Exploiting History in Continuous Monitoring Systems
III-COR:利用连续监测系统的历史
- 批准号:
0713123 - 财政年份:2007
- 资助金额:
$ 50万 - 项目类别:
Continuing Grant
相似国自然基金
员工算法规避行为的内涵结构、量表开发及多层次影响机制:基于大(小)数据研究方法整合视角
- 批准号:72372021
- 批准年份:2023
- 资助金额:40 万元
- 项目类别:面上项目
基于复杂抽样和时空效应下卫生服务调查数据的小域估计方法研究
- 批准号:82304238
- 批准年份:2023
- 资助金额:30 万元
- 项目类别:青年科学基金项目
融合多源异构数据的小微企业经营风险智能识别与应对策略研究
- 批准号:72301188
- 批准年份:2023
- 资助金额:30 万元
- 项目类别:青年科学基金项目
不平衡数据下基于多源域迁移学习的小微企业信用风险评估研究
- 批准号:72301093
- 批准年份:2023
- 资助金额:30.00 万元
- 项目类别:青年科学基金项目
复杂场景下模型—数据联合驱动的红外小目标检测研究
- 批准号:62303165
- 批准年份:2023
- 资助金额:30 万元
- 项目类别:青年科学基金项目
相似海外基金
Safety and Tolerability of TASIS-Peanut (Targeted Allergen Specific Immunotherapy within the Skin) patch for the Treatment of Peanut Allergy
TASIS-花生(皮肤内靶向过敏原特异性免疫疗法)贴剂治疗花生过敏的安全性和耐受性
- 批准号:
10551184 - 财政年份:2023
- 资助金额:
$ 50万 - 项目类别:
Planar culture of gastrointestinal stem cells for screening pharmaceuticals for adverse event risk
胃肠道干细胞平面培养用于筛选药物不良事件风险
- 批准号:
10707830 - 财政年份:2023
- 资助金额:
$ 50万 - 项目类别:
Single domain antibodies for diagnosis and treatment of synucleinopathies
用于诊断和治疗突触核蛋白病的单域抗体
- 批准号:
10915130 - 财政年份:2023
- 资助金额:
$ 50万 - 项目类别: