SHF: Small: Enabling and Analyzing Accuracy-aware Reliable GPU Computing

SHF:小型:启用和分析精度感知的可靠 GPU 计算

基本信息

  • 批准号:
    1717532
  • 负责人:
  • 金额:
    $ 45万
  • 依托单位:
  • 依托单位国家:
    美国
  • 项目类别:
    Standard Grant
  • 财政年份:
    2017
  • 资助国家:
    美国
  • 起止时间:
    2017-08-01 至 2021-07-31
  • 项目状态:
    已结题

项目摘要

Graphics Processing Units (GPUs) are becoming the default choice for general-purpose hardware acceleration because of their ability to enable orders of magnitude faster and energy-efficient execution for large-scale high-performance computing applications. Since the majority of such applications executing on large-scale HPC systems are long-running, it is very important that they cope with a variety of hardware- and software-based faults. Many prior works have shown that real HPC systems are vulnerable to soft errors. An absence of essential protection and checkpointing mechanisms can lead to lower scientific productivity, operational efficiency, and even monetary loss. However, these protection mechanisms (e.g., error correction codes) are themselves not free -- they incur very high performance, energy, and area costs. This project takes a holistic approach to explore the avenues to reduce these protection overheads by taking advantage of the fact that all errors do not lead to an unacceptable loss in the accuracy of application output. Prior results show that GPGPU applications are amenable to such accuracy-aware optimizations. In order to enable these optimizations, this project will address three major research questions: a) What hardware/software support and tools are necessary to determine which instructions are not vulnerable to soft errors, b) Based on this analysis, which hardware component(s) need not be protected and for how long, while not sacrificing application quality beyond the user's quality requirements, and c) What optimizations in terms of resource management and scheduling are necessary to make low-overhead but reliable computation more effective and efficient. These questions will be explored via a variety of GPGPU applications emerging from the areas of high-performance computing (HPC), big-data analytics, machine learning, and graphics. If successful, this project will generate several novel research insights that will play an important role in enabling low-cost reliable GPU computing. The results of this project will be integrated into the existing and new undergraduate and graduate courses on computer architecture and reliability, which will facilitate in training students, including women and students from diverse backgrounds and minority groups.
图形处理单元 (GPU) 正在成为通用硬件加速的默认选择,因为它们能够为大规模高性能计算应用程序提供数量级更快且节能的执行,因为大多数此类应用程序都在其上执行。大型 HPC 系统是长期运行的,因此应对各种基于硬件和软件的故障非常重要。许多先前的工作表明,真正的 HPC 系统容易受到软错误的影响。检查点机制可能会导致科学性降低然而,这些保护机制(例如纠错码)本身并不是免费的——它们会产生非常高的性能、能源和面积成本。该项目采用整体方法来探索。通过利用所有错误都不会导致应用程序输出的准确性出现不可接受的损失这一事实,可以找到减少这些保护开销的途径。先前的结果表明,GPGPU 应用程序可以进行此类精度感知优化,以实现这些优化。 ,这个项目将解决三个主要研究问题:a) 需要哪些硬件/软件支持和工具来确定哪些指令不易受到软错误的影响,b) 根据此分析,哪些硬件组件不需要保护以及保护多长时间,同时不牺牲超出用户质量要求的应用程序质量,以及 c) 需要在资源管理和调度方面进行哪些优化才能使低开销但可靠的计算更加有效和高效。这些问题将通过各种新兴的 GPGPU 应用程序进行探讨。来自高性能领域如果成功,该项目将产生一些新颖的研究见解,这些见解将在实现低成本可靠的 GPU 计算方面发挥重要作用。该项目的结果将被整合。纳入现有和新的计算机体系结构和可靠性本科生和研究生课程,这将有助于培训学生,包括来自不同背景和少数群体的妇女和学生。

项目成果

期刊论文数量(10)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
Enabling Software Resilience in GPGPU Applications via Partial Thread Protection
通过部分线程保护在 GPGPU 应用程序中实现软件弹性
RCoal: Mitigating GPU Timing Attack via Subwarp-Based Randomized Coalescing Techniques
RCoal:通过基于 Subwarp 的随机合并技术减轻 GPU 计时攻击
BCoal: Bucketing-Based Memory Coalescing for Efficient and Secure GPUs
BCoal:基于分桶的内存合并,实现高效、安全的 GPU
SUGAR: Speeding Up GPGPU Application Resilience Estimation with Input Sizing
SUGAR:通过输入大小调整加速 GPGPU 应用程序弹性估计
SSD failures in the field: symptoms, causes, and prediction models
现场 SSD 故障:症状、原因和预测模型
{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ patent.updateTime }}

Adwait Jog其他文献

Fault Site Pruning for Practical Reliability Analysis of GPGPU Applications
用于 GPGPU 应用实际可靠性分析的故障站点修剪
A Regression-based Model for End-to-End Latency Prediction for DNN Execution on GPUs
基于回归的模型,用于 GPU 上 DNN 执行的端到端延迟预测
Quantifying Data Locality in Dynamic Parallelism in GPUs
量化 GPU 动态并行性中的数据局部性
Scheduling techniques for GPU architectures with processing-in-memory capabilities
具有内存处理功能的 GPU 架构的调度技术
μC-States: Fine-grained GPU datapath power management
μC-States:细粒度 GPU 数据路径电源管理

Adwait Jog的其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

{{ truncateString('Adwait Jog', 18)}}的其他基金

Collaborative Research: SHF: Medium: Enabling GPU Performance Simulation for Large-Scale Workloads with Lightweight Simulation Methods
合作研究:SHF:中:通过轻量级仿真方法实现大规模工作负载的 GPU 性能仿真
  • 批准号:
    2402805
  • 财政年份:
    2024
  • 资助金额:
    $ 45万
  • 项目类别:
    Standard Grant
CAREER: Addressing Scalability Challenges in Designing Next-generation GPU-Based Heterogeneous Architectures
职业:解决设计下一代基于 GPU 的异构架构时的可扩展性挑战
  • 批准号:
    2316694
  • 财政年份:
    2023
  • 资助金额:
    $ 45万
  • 项目类别:
    Continuing Grant
CAREER: Addressing Scalability Challenges in Designing Next-generation GPU-Based Heterogeneous Architectures
职业:解决设计下一代基于 GPU 的异构架构时的可扩展性挑战
  • 批准号:
    1750667
  • 财政年份:
    2018
  • 资助金额:
    $ 45万
  • 项目类别:
    Continuing Grant
CRII: SHF: Design and Analysis of Processing-Near-Memory Enabled GPU Architecture
CRII:SHF:支持近内存处理的 GPU 架构的设计和分析
  • 批准号:
    1657336
  • 财政年份:
    2017
  • 资助金额:
    $ 45万
  • 项目类别:
    Standard Grant

相似国自然基金

ALKBH5介导的SOCS3-m6A去甲基化修饰在颅脑损伤后小胶质细胞炎性激活中的调控作用及机制研究
  • 批准号:
    82301557
  • 批准年份:
    2023
  • 资助金额:
    30 万元
  • 项目类别:
    青年科学基金项目
miRNA前体小肽miPEP在葡萄低温胁迫抗性中的功能研究
  • 批准号:
  • 批准年份:
    2023
  • 资助金额:
    50 万元
  • 项目类别:
PKM2苏木化修饰调节非小细胞肺癌起始细胞介导的耐药生态位的机制研究
  • 批准号:
    82372852
  • 批准年份:
    2023
  • 资助金额:
    49 万元
  • 项目类别:
    面上项目
基于翻译组学理论探究LncRNA H19编码多肽PELRM促进小胶质细胞活化介导电针巨刺改善膝关节术后疼痛的机制研究
  • 批准号:
    82305399
  • 批准年份:
    2023
  • 资助金额:
    30 万元
  • 项目类别:
    青年科学基金项目
CLDN6高表达肿瘤细胞亚群在非小细胞肺癌ICB治疗抗性形成中的作用及机制研究
  • 批准号:
    82373364
  • 批准年份:
    2023
  • 资助金额:
    49 万元
  • 项目类别:
    面上项目

相似海外基金

Collaborative Research: SHF: Small: Enabling Efficient 3D Perception: An Architecture-Algorithm Co-Design Approach
协作研究:SHF:小型:实现高效的 3D 感知:架构-算法协同设计方法
  • 批准号:
    2334624
  • 财政年份:
    2023
  • 资助金额:
    $ 45万
  • 项目类别:
    Standard Grant
Collaborative Research: SHF: Small: Software Hardware Architecture Co-Design for Enabling True Virtual Reality on Mobile Devices
合作研究:SHF:小型:软件硬件架构协同设计,在移动设备上实现真正的虚拟现实
  • 批准号:
    2215042
  • 财政年份:
    2022
  • 资助金额:
    $ 45万
  • 项目类别:
    Standard Grant
Collaborative Research: SHF: Small: Enabling Caches and GPUs for Energy Harvesting Systems
合作研究:SHF:小型:为能量收集系统启用缓存和 GPU
  • 批准号:
    2153747
  • 财政年份:
    2022
  • 资助金额:
    $ 45万
  • 项目类别:
    Standard Grant
Collaborative Research: SHF: Small: Enabling Caches and GPUs for Energy Harvesting Systems
合作研究:SHF:小型:为能量收集系统启用缓存和 GPU
  • 批准号:
    2153748
  • 财政年份:
    2022
  • 资助金额:
    $ 45万
  • 项目类别:
    Standard Grant
Collaborative Research: SHF: Small: Software Hardware Architecture Co-Design for Enabling True Virtual Reality on Mobile Devices
合作研究:SHF:小型:软件硬件架构协同设计,在移动设备上实现真正的虚拟现实
  • 批准号:
    2215043
  • 财政年份:
    2022
  • 资助金额:
    $ 45万
  • 项目类别:
    Standard Grant
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了