CAREER: Rethinking HPC Resilience in the Exascale Era

职业:重新思考百亿亿次时代的 HPC 弹性

基本信息

项目摘要

Resilience is one of the key exascale research challenges in high-performancecomputing (HPC). Due to much high error rates, exascale supercomputers couldmake little progress in computations, or might generate incorrect results due tofailures, rendering the exascale performance useless. Thechallenge is how to achieve a complete HPC resilience at exascale in a way thatdoes not increase the performance overhead, the power consumption, and thecomplexity of underlying hardware. To this end, this research project designsand develops low-cost hardware/software cooperative techniques for HPCresilience in the exascale era. This project involves four research goals: (1) low-cost soft error resiliencefor CPUs; intelligent compiler-architecture interaction can validate the lack oferrors and performs fine-grained recovery, thus eliminating SDC. (2)compiler-directed soft error resilience for commodity GPUs; it can remove thepower-hungry error-correcting code (ECC) logic from the GPU register fileswithout compromising their resilience. (3) lightweight nonvolatile memory (NVM)persistence; it can mitigate the overhead of traditional heavyweight HPCcheckpointing and support whole-system persistence for applications withoutirrevocable operations. (4) low-cost timing error resilience for aggressivevoltage scaling to maximize the energy-efficiency with program correctnessguarantee.The resulting artifacts and technologies are expected to contribute to thenation's competitiveness by addressing the challenge of building reliable HPCsystems. The research outcome impacts a broad range of any disciplines thatneed correct computation results thus requiring reliable computing systemscovering from embedded systems to HPC cloud. Consequently, use of the proposedtechniques will make the execution of current and emerging applications muchmore reliable, and therefore directly affect our way of life.There will be three types of data generated from this research project: (1)algorithms and models, (2) software prototype, (3) testing infrastructureincluding simulators and evaluation benchmarks and their traces, (4) educationalmaterials. All of our software tools will be open source and made available tothe public, laboratories and industry.
弹性是高性能计算 (HPC) 领域的关键研究挑战之一。由于错误率太高,百亿亿级超级计算机在计算上可能进展甚微,或者可能因故障而产生不正确的结果,使百亿亿级性能变得毫无用处。 挑战在于如何在不增加性能开销、功耗和底层硬件复杂性的情况下实现百亿亿级的完整 HPC 弹性。 为此,本研究项目设计并开发了用于百亿亿次时代HPC弹性的低成本硬件/软件协作技术。该项目涉及四个研究目标:(1)CPU的低成本软错误恢复能力;智能编译器-体系结构交互可以验证是否存在错误并执行细粒度恢复,从而消除 SDC。 (2)面向商用 GPU 的编译器引导的软错误恢复能力;它可以从 GPU 寄存器文件中删除耗电的纠错码 (ECC) 逻辑,而不会影响其弹性。 (3)轻量级非易失性存储器(NVM)持久性;它可以减轻传统重量级 HPC 检查点的开销,并支持应用程序的整个系统持久性,而无需进行不可撤销的操作。 (4) 低成本定时错误恢复能力,用于积极的电压调整,以最大限度地提高能源效率并保证程序正确性。由此产生的工件和技术预计将通过解决构建可靠的 HPC 系统的挑战来为国家的竞争力做出贡献。 研究成果广泛影响任何需要正确计算结果的学科,因此需要可靠的计算系统,涵盖从嵌入式系统到 HPC 云。因此,使用所提出的技术将使当前和新兴应用程序的执行更加可靠,从而直接影响我们的生活方式。该研究项目将生成三种类型的数据:(1)算法和模型,(2)软件原型,(3) 测试基础设施,包括模拟器和评估基准及其痕迹,(4) 教育材料。我们所有的软件工具都将是开源的,并向公众、实验室和行业提供。

项目成果

期刊论文数量(1)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
CommAnalyzer: Automated Estimation of Communication Cost and Scalability on HPC Clusters from Sequential Code
CommAnalyzer:根据顺序代码自动估计 HPC 集群的通信成本和可扩展性
{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ patent.updateTime }}

Changhee Jung其他文献

SweepCache: Intermittence-Aware Cache on the Cheap
SweepCache:廉价的间歇感知缓存
BenchPrime
长凳总理
BOGO: Buy Spatial Memory Safety, Get Temporal Memory Safety (Almost) Free
BOGO:购买空间内存安全,(几乎)免费获得时间内存安全
Adaptive execution techniques of parallel programs for multiprocessors
多处理器并行程序的自适应执行技术
  • DOI:
  • 发表时间:
    2010
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Jaejin Lee;Jungho Park;Honggyu Kim;Changhee Jung;Daeseob Lim;Sang
  • 通讯作者:
    Sang
Turnpike: Lightweight Soft Error Resilience for In-Order Cores
Turnpike:有序核心的轻量级软错误恢复能力

Changhee Jung的其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

{{ truncateString('Changhee Jung', 18)}}的其他基金

Collaborative Research: CSR: Small: Caphammer: A New Security Exploit in Energy Harvesting Systems and its Countermeasures
合作研究:CSR:小型:Caphammer:能量收集系统的新安全漏洞及其对策
  • 批准号:
    2314681
  • 财政年份:
    2023
  • 资助金额:
    $ 52.17万
  • 项目类别:
    Continuing Grant
Collaborative Research: SHF: Small: Enabling Caches and GPUs for Energy Harvesting Systems
合作研究:SHF:小型:为能量收集系统启用缓存和 GPU
  • 批准号:
    2153749
  • 财政年份:
    2022
  • 资助金额:
    $ 52.17万
  • 项目类别:
    Standard Grant
CAREER: Rethinking HPC Resilience in the Exascale Era
职业:重新思考百亿亿次时代的 HPC 弹性
  • 批准号:
    2001124
  • 财政年份:
    2019
  • 资助金额:
    $ 52.17万
  • 项目类别:
    Continuing Grant
SHF: Small: Compiler and Architectural Techniques for Soft Error Resilience
SHF:小型:软错误恢复能力的编译器和架构技术
  • 批准号:
    1527463
  • 财政年份:
    2015
  • 资助金额:
    $ 52.17万
  • 项目类别:
    Standard Grant

相似国自然基金

基于“批注-反思-研讨”协同阅读教学的过程解构与适应性智能教学策略重构的在线系统研究
  • 批准号:
    62377017
  • 批准年份:
    2023
  • 资助金额:
    50 万元
  • 项目类别:
    面上项目
课堂“空间教学”行为的多模态分析与教师实践反思支持研究
  • 批准号:
    62307024
  • 批准年份:
    2023
  • 资助金额:
    30 万元
  • 项目类别:
    青年科学基金项目
双边需求视角下的职场自我反思:构念、触发机制与价值激活效应研究
  • 批准号:
    72271231
  • 批准年份:
    2022
  • 资助金额:
    44 万元
  • 项目类别:
    面上项目
新时期的小额信贷与相对贫困治理:理论反思、机制分析及路径优化
  • 批准号:
  • 批准年份:
    2020
  • 资助金额:
    49 万元
  • 项目类别:
    面上项目

相似海外基金

High-rise landscapes: The afterlives of tower block 'failure' and rethinking urban futures
高层景观:塔楼“失败”的后遗症和重新思考城市未来
  • 批准号:
    MR/Y003586/1
  • 财政年份:
    2024
  • 资助金额:
    $ 52.17万
  • 项目类别:
    Fellowship
Conference: Rethinking how language background is described in academia and beyond
会议:重新思考学术界及其他领域如何描述语言背景
  • 批准号:
    2335912
  • 财政年份:
    2024
  • 资助金额:
    $ 52.17万
  • 项目类别:
    Standard Grant
CAREER: Rethinking System Stack for the Load-Store I/O Era
职业:重新思考加载-存储 I/O 时代的系统堆栈
  • 批准号:
    2339901
  • 财政年份:
    2024
  • 资助金额:
    $ 52.17万
  • 项目类别:
    Continuing Grant
CAREER: Rethinking Spiking Neural Networks from a Dynamical System Perspective
职业:从动态系统的角度重新思考尖峰神经网络
  • 批准号:
    2337646
  • 财政年份:
    2024
  • 资助金额:
    $ 52.17万
  • 项目类别:
    Continuing Grant
CAREER: A multimethod approach to rethinking the dynamics of inhibitory control under stress
职业生涯:重新思考压力下抑制控制动态的多种方法
  • 批准号:
    2338789
  • 财政年份:
    2024
  • 资助金额:
    $ 52.17万
  • 项目类别:
    Continuing Grant
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了