SHF: Medium: Collaborative Research: Next-Generation Message Passing for Parallel Programming: Resiliency, Time-to-Solution, Performance-Portability, Scalability, and QoS
SHF:中:协作研究:并行编程的下一代消息传递:弹性、解决时间、性能可移植性、可扩展性和 QoS
基本信息
- 批准号:1562306
- 负责人:
- 金额:$ 39.79万
- 依托单位:
- 依托单位国家:美国
- 项目类别:Continuing Grant
- 财政年份:2016
- 资助国家:美国
- 起止时间:2016-06-01 至 2022-05-31
- 项目状态:已结题
- 来源:
- 关键词:
项目摘要
Parallel programming based on MPI is being used with increased frequency in academia, government (defense and non-defense uses), as well as emerging uses in scalable machine learning and big data analytics. Emerging supercomputer systems will have more faults and MPI needs to be able to workaround such faults to be appropriate to these emerging situations, rather than causing an entire application to fail. Collaborative, transformative message passing research for High Performance Computing (HPC) critical to performance-portable parallel programming in new and forthcoming scalable systems (with a strategy of "best practice-first, standardization-later") is being reduced to practice. A substantial subset of the Message Passing Interface (MPI-3/4) application programmer interface is being made fault tolerant through extensions with weak collective transactions that synchronize between parallel tasks. This research studies the novel model that localizes faults, provides tunable fault-free overhead, allows for multiple kinds of faults, enables hierarchical recovery, and is data-parallel relevant. Fault modeling of underlying networks is being studied. Application developers control the granularity and fault-free overhead in this effort. Performance and scalability results of the middleware prototype are being demonstrated principally through compact applications that relate to real use cases of practical and academic interest. The impact of this work ranges from users of the largest supercomputers in government labs to practical clusters that have long-running, time-critical applications, and to space-based and other parallel processing in "hostile" environments where faults occur more frequently than in past years. The project is producing usable free software that will be widely shared in the community as well as guidance on how better parallel programs can be written in academia, industry, and government. The project also provides guidelines for how to update existing or legacy programs to use the new capabilities that are being reduced to practice.
基于 MPI 的并行编程在学术界、政府(国防和非国防用途)以及可扩展机器学习和大数据分析中的新兴用途越来越频繁地使用。 新兴的超级计算机系统将出现更多故障,MPI 需要能够解决此类故障,以适应这些新兴情况,而不是导致整个应用程序失败。 针对高性能计算 (HPC) 的协作性、变革性消息传递研究对于新的和即将推出的可扩展系统中的性能可移植并行编程至关重要(采用“最佳实践优先,随后标准化”的策略)正在付诸实践。消息传递接口 (MPI-3/4) 应用程序编程器接口的一个重要子集正在通过在并行任务之间同步的弱集体事务的扩展来实现容错。这项研究研究了一种新颖的模型,该模型可以定位故障,提供可调的无故障开销,允许多种故障,支持分层恢复,并且与数据并行相关。 正在研究底层网络的故障建模。应用程序开发人员控制这项工作的粒度和无故障开销。中间件原型的性能和可扩展性结果主要通过与实际和学术兴趣的实际用例相关的紧凑应用程序来展示。这项工作的影响范围从政府实验室中最大的超级计算机的用户到具有长期运行、时间关键型应用程序的实际集群,以及“敌对”环境中的基于空间和其他并行处理,其中故障发生的频率比在环境中更频繁。历年。 该项目正在生产可用的免费软件,这些软件将在社区中广泛共享,并指导学术界、工业界和政府如何编写更好的并行程序。 该项目还提供了如何更新现有或遗留程序以使用正在付诸实践的新功能的指南。
项目成果
期刊论文数量(0)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
数据更新时间:{{ journalArticles.updateTime }}
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
数据更新时间:{{ journalArticles.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ monograph.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ sciAawards.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ conferencePapers.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ patent.updateTime }}
Sidharth kumar其他文献
Sidharth kumar的其他文献
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
{{ truncateString('Sidharth kumar', 18)}}的其他基金
Collaborative Research: SHF: Small: Scalable and Extensible I/O Runtime and Tools for Next Generation Adaptive Data Layouts
协作研究:SHF:小型:可扩展和可扩展的 I/O 运行时以及下一代自适应数据布局的工具
- 批准号:
2401274 - 财政年份:2023
- 资助金额:
$ 39.79万 - 项目类别:
Standard Grant
Collaborative Research: SHF: Small: Scalable and Extensible I/O Runtime and Tools for Next Generation Adaptive Data Layouts
协作研究:SHF:小型:可扩展和可扩展的 I/O 运行时以及下一代自适应数据布局的工具
- 批准号:
2221811 - 财政年份:2022
- 资助金额:
$ 39.79万 - 项目类别:
Standard Grant
RII Track-4:NSF: Relational Algebra on Heterogeneous Extreme-scale Systems
RII Track-4:NSF:异构极端规模系统上的关系代数
- 批准号:
2132013 - 财政年份:2022
- 资助金额:
$ 39.79万 - 项目类别:
Standard Grant
相似国自然基金
基于机器学习和经典电动力学研究中等尺寸金属纳米粒子的量子表面等离激元
- 批准号:22373002
- 批准年份:2023
- 资助金额:50 万元
- 项目类别:面上项目
基于挥发性分布和氧化校正的大气半/中等挥发性有机物来源解析方法构建
- 批准号:42377095
- 批准年份:2023
- 资助金额:49 万元
- 项目类别:面上项目
中等质量黑洞附近的暗物质分布及其IMRI系统引力波回波探测
- 批准号:12365008
- 批准年份:2023
- 资助金额:32 万元
- 项目类别:地区科学基金项目
复合低维拓扑材料中等离激元增强光学响应的研究
- 批准号:12374288
- 批准年份:2023
- 资助金额:52 万元
- 项目类别:面上项目
中等垂直风切变下非对称型热带气旋快速增强的物理机制研究
- 批准号:42305004
- 批准年份:2023
- 资助金额:30 万元
- 项目类别:青年科学基金项目
相似海外基金
Collaborative Research: SHF: Medium: Enabling Graphics Processing Unit Performance Simulation for Large-Scale Workloads with Lightweight Simulation Methods
合作研究:SHF:中:通过轻量级仿真方法实现大规模工作负载的图形处理单元性能仿真
- 批准号:
2402804 - 财政年份:2024
- 资助金额:
$ 39.79万 - 项目类别:
Standard Grant
Collaborative Research: SHF: Medium: Enabling GPU Performance Simulation for Large-Scale Workloads with Lightweight Simulation Methods
合作研究:SHF:中:通过轻量级仿真方法实现大规模工作负载的 GPU 性能仿真
- 批准号:
2402806 - 财政年份:2024
- 资助金额:
$ 39.79万 - 项目类别:
Standard Grant
Collaborative Research: SHF: Medium: Toward Understandability and Interpretability for Neural Language Models of Source Code
合作研究:SHF:媒介:实现源代码神经语言模型的可理解性和可解释性
- 批准号:
2423813 - 财政年份:2024
- 资助金额:
$ 39.79万 - 项目类别:
Standard Grant
Collaborative Research: SHF: Medium: Enabling GPU Performance Simulation for Large-Scale Workloads with Lightweight Simulation Methods
合作研究:SHF:中:通过轻量级仿真方法实现大规模工作负载的 GPU 性能仿真
- 批准号:
2402805 - 财政年份:2024
- 资助金额:
$ 39.79万 - 项目类别:
Standard Grant
Collaborative Research: SHF: Medium: Differentiable Hardware Synthesis
合作研究:SHF:媒介:可微分硬件合成
- 批准号:
2403135 - 财政年份:2024
- 资助金额:
$ 39.79万 - 项目类别:
Standard Grant