CSR: Small: Diagnosing Performance and Correctness Errors in Parallel Applications at Large Scales
CSR:小:诊断大规模并行应用程序中的性能和正确性错误
基本信息
- 批准号:1527262
- 负责人:
- 金额:$ 45万
- 依托单位:
- 依托单位国家:美国
- 项目类别:Standard Grant
- 财政年份:2015
- 资助国家:美国
- 起止时间:2015-10-01 至 2019-09-30
- 项目状态:已结题
- 来源:
- 关键词:
项目摘要
Dependability has become a critically necessary property for many of the computer systems that surround us or work behind the scenes supporting our personal and professional lives. We have made great strides in our ability to design, implement, and operate dependable systems. However, dependability solutions are increasingly being stressed due to rapid increases in the scale of the computing systems. Computer applications used in areas such as computational genomics, data mining, and prediction of natural phenomena tackle extremely complex problems which generate vast amounts of sensory data; thus, the inputs to these applications is tremendous. Computing is rapidly becoming more dependent on parallelism - where many calculations are carried out simultaneously. This means increasing core counts for servers, more servers and racks for data centers, and a dramatic increase in the number of computing cores that these applications must run. The traditional dependability solutions just are not working. When an application does not complete or completes with incorrect results, the developer must identify the offending parallel task and then the portion of the code in that task that caused the error. This is hard enough for parallel applications at small to moderate sizes. These issues get exacerbated at large scales. Dealing with tens of processes is within reach of mere mortal developers, a few hundreds of processes is within reach of heroic developers, but on machines of petascale and beyond, this requires sophisticated support.This project will create design principles for debugging tools that can operate at large scales of data and process count and a practical instantiation of these principles in a system called LANCET. The methodology will be based on the insight that the numbers of equivalence classes of processes in an application do not grow even as the number of processes grows. Analysis will mostly deal with equivalence classes. Resilience runtime will have elements that operate on individual processes in a completely distributed manner. Where non-local knowledge is needed, the techniques will operate in a sampling mode. Finally, the project will develop solutions for data-dependent errors that have resisted convincing widely applicable solutions, i.e., errors of the kind that manifest themselves for specific input datasets or specific input parameter combinations.
对于围绕我们的许多计算机系统或在幕后工作以支持我们的个人和职业生活的许多计算机系统,可靠性已成为至关重要的属性。我们在设计,实施和操作可靠的系统的能力方面取得了长足的进步。但是,由于计算系统规模的快速增加,可靠性解决方案越来越多地受到压力。在计算基因组学,数据挖掘和自然现象的预测等领域使用的计算机应用解决了极其复杂的问题,这些问题产生了大量的感官数据;因此,这些应用程序的输入是巨大的。 计算正迅速依赖于并行性 - 同时进行许多计算。这意味着增加了服务器的核心计数,更多的数据中心的服务器和机架,以及这些应用程序必须运行的计算核心数量的急剧增加。传统的可靠性解决方案只是行不通的。当应用程序未完成或以不正确的结果完成时,开发人员必须确定有问题的并行任务,然后确定导致错误的该任务中代码的部分。对于小到中等尺寸的并行应用来说,这很难。这些问题在很大的规模上加剧了。仅仅是致命的开发人员就可以接触到数十万种流程,几百个流程可以触及英雄开发人员,但是在Petascale及其他方面的机器上,这需要复杂的支持。该项目将创建可以调试工具的设计原理,这些工具可以在数据和流程数量和流程计数和这些原理的实际实例化的系统中进行调用。该方法将基于以下见解:即使过程数量的数量增加,应用程序中的等效类别的流程类别也不会增长。 分析主要涉及等效类。弹性运行时将以完全分布的方式在单个流程上运行的元素。在需要非本地知识的地方,该技术将以采样模式运行。最后,该项目将开发有关数据依赖性错误的解决方案,这些错误拒绝了可说服广泛适用的解决方案,即为特定输入数据集或特定的输入参数组合所表现出的那种错误。
项目成果
期刊论文数量(0)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
数据更新时间:{{ journalArticles.updateTime }}
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
数据更新时间:{{ journalArticles.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ monograph.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ sciAawards.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ conferencePapers.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ patent.updateTime }}
Saurabh Bagchi其他文献
A Survey Article on Wormhole Attack Detection and Security in Wireless Sensor Networks
关于无线传感器网络中虫洞攻击检测和安全的调查文章
- DOI:
10.5120/ijca2017915666 - 发表时间:
2017 - 期刊:
- 影响因子:0
- 作者:
Gaurav Tejpal;Sonal Sharma;Khalil;Issa;Saurabh Bagchi;N. Shroff;S. Krishnamurthy - 通讯作者:
S. Krishnamurthy
Saurabh Bagchi的其他文献
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
{{ truncateString('Saurabh Bagchi', 18)}}的其他基金
NSF Workshop on State-of-the-Art and Challenges in Resilience
美国国家科学基金会关于复原力的最新技术和挑战研讨会
- 批准号:
2140139 - 财政年份:2021
- 资助金额:
$ 45万 - 项目类别:
Standard Grant
CCRI: ENS: Collaborative Research: Open Computer System Usage Repository and Analytics Engine
CCRI:ENS:协作研究:开放计算机系统使用存储库和分析引擎
- 批准号:
2016704 - 财政年份:2020
- 资助金额:
$ 45万 - 项目类别:
Standard Grant
NSF Workshop on State-of-the-Art and Challenges in Resilience
美国国家科学基金会关于复原力的最新技术和挑战研讨会
- 批准号:
1845192 - 财政年份:2018
- 资助金额:
$ 45万 - 项目类别:
Standard Grant
CI-NEW: Collaborative Research: Computer System Failure Data Repository to Enable Data-Driven Dependability
CI-NEW:协作研究:计算机系统故障数据存储库以实现数据驱动的可靠性
- 批准号:
1513197 - 财政年份:2015
- 资助金额:
$ 45万 - 项目类别:
Standard Grant
CI-P: Computer System Failure Data Repository to Enable Data-Driven Dependability Research
CI-P:计算机系统故障数据存储库,支持数据驱动的可靠性研究
- 批准号:
1405906 - 财政年份:2014
- 资助金额:
$ 45万 - 项目类别:
Standard Grant
NeTS: Medium: Collaborative Research: Tango: Performance and Fault Management in Cellular Networks through Device-Network Cooperation
NeTS:媒介:协作研究:Tango:通过设备网络协作进行蜂窝网络的性能和故障管理
- 批准号:
1409506 - 财政年份:2014
- 资助金额:
$ 45万 - 项目类别:
Continuing Grant
Travel Grants for Attending the 29th IEEE Symposium on Reliable Distributed Systems (SRDS)
参加第 29 届 IEEE 可靠分布式系统 (SRDS) 研讨会的旅费补助
- 批准号:
1047647 - 财政年份:2010
- 资助金额:
$ 45万 - 项目类别:
Standard Grant
CSR: Small: Monitoring for Error Detection in Today's High Throughput Applications
CSR:小:监控当今高吞吐量应用程序中的错误检测
- 批准号:
0916337 - 财政年份:2009
- 资助金额:
$ 45万 - 项目类别:
Standard Grant
NeTS-NOSS: Robust Sensor Network Architecture through Neighborhood Monitoring and Isolation
NeTS-NOSS:通过邻域监控和隔离实现稳健的传感器网络架构
- 批准号:
0626830 - 财政年份:2006
- 资助金额:
$ 45万 - 项目类别:
Standard Grant
Sensors: Smart RF Antennas for Reliable and Real-Time Sensor Networks
传感器:用于可靠、实时传感器网络的智能射频天线
- 批准号:
0330016 - 财政年份:2003
- 资助金额:
$ 45万 - 项目类别:
Standard Grant
相似国自然基金
基于加权隐私保护计算的非小细胞肺癌辅助诊断方法研究
- 批准号:62301006
- 批准年份:2023
- 资助金额:30 万元
- 项目类别:青年科学基金项目
肾细胞靶向性超小纳米粒子的构建及其在肾病早期诊断应用中的研究
- 批准号:
- 批准年份:2022
- 资助金额:54 万元
- 项目类别:面上项目
肝癌细胞来源小细胞外囊泡通过CD147促进内皮细胞血管新生的机制及其诊断价值研究
- 批准号:82260422
- 批准年份:2022
- 资助金额:33.00 万元
- 项目类别:地区科学基金项目
基于收敛生成对抗网络的非小细胞肺癌跨模态辅助诊断方法研究
- 批准号:
- 批准年份:2022
- 资助金额:30 万元
- 项目类别:青年科学基金项目
基于脂质体-外泌体杂化融合体系的多靶标识别探针用于非小细胞肺癌的诊断研究
- 批准号:22204034
- 批准年份:2022
- 资助金额:30.00 万元
- 项目类别:青年科学基金项目
相似海外基金
A multi-sensor catheter for diagnosing obstructive sleep apnea
用于诊断阻塞性睡眠呼吸暂停的多传感器导管
- 批准号:
10696658 - 财政年份:2023
- 资助金额:
$ 45万 - 项目类别:
Development of protease activity-based detector substrates for diagnosing Candida infections
开发用于诊断念珠菌感染的基于蛋白酶活性的检测器底物
- 批准号:
10676162 - 财政年份:2022
- 资助金额:
$ 45万 - 项目类别: