Collaborative Research: OAC Core: CEAPA: A Systematic Approach to Minimize Compression Error Propagation in HPC Applications

合作研究:OAC 核心:CEAPA:一种最小化 HPC 应用中压缩错误传播的系统方法

基本信息

  • 批准号:
    2211538
  • 负责人:
  • 金额:
    $ 35万
  • 依托单位:
  • 依托单位国家:
    美国
  • 项目类别:
    Standard Grant
  • 财政年份:
    2022
  • 资助国家:
    美国
  • 起止时间:
    2022-08-15 至 2025-07-31
  • 项目状态:
    未结题

项目摘要

Today’s high-performance computing (HPC) applications produce vast volumes of data for post-analysis, presenting a major storage and I/O burden for HPC systems. To significantly reduce this burden, researchers have explored to use lossy compression techniques. While lossy compression can effectively reduce the size of data, it also introduces errors to the compressed data that often lead to incorrect computation results. As a result, scientists hesitate to use lossy compression in their scientific research. Thus, there is a critical need to develop an effective method to identify compression strategies which minimize error impact for a diversity of programs. This project aims to develop a systematic approach that helps scientists automatically select a lossy compression algorithm with the lowest error impact based their HPC programs and target compression ratios. It also integrates educational and outreach activities including student training and development of new curriculum on trustworthy data reduction and dependable HPC systems. Modeling compression error propagation in HPC programs is challenging because existing lossy compressors are developed with distinct principles that generate largely different compression errors on diverse HPC data. This project includes four key thrusts: (1) developing an accurate and efficient fault injection infrastructure that integrates with the fault models of commonly used lossy compression algorithms; (2) designing a fine-grained approach to characterize error propagation in HPC programs through program analysis and deposition based on the data dependencies and life cycle of compressed data; (3) developing a predictive model using machine learning techniques to select a compression strategy that minimizes the error impact on a given program and compression ratio; and (4) integrating the technique with domain-specific error impact metrics in real-world HPC applications and demonstrates the effectiveness of the technique by selecting compression strategies that give low error impact for the same ratios. Not only this project has an enormous positive impact on HPC cyberinfrastructure, but it also helps redefine the optimization of lossy compression techniques with emphasis on both efficiency and error impact.This award reflects NSF's statutory mission and has been deemed worthy of support through evaluation using the Foundation's intellectual merit and broader impacts review criteria.
当今的高性能计算 (HPC) 应用程序会产生大量数据用于后期分析,这给 HPC 系统带来了巨大的存储和 I/O 负担,为了显着减轻这种负担,研究人员探索了使用有损压缩技术。虽然可以有效地减小数据大小,但它也会给压缩数据带来错误,从而常常导致错误的计算结果,因此,科学家们在科学研究中犹豫是否使用有损压缩。因此,迫切需要开发一种有效的方法。确定最小化压缩策略的方法该项目旨在开发一种系统方法,帮助科学家根据其 HPC 程序和目标压缩率自动选择错误影响最低的有损压缩算法。开发有关可信数据缩减和可靠 HPC 系统的新课程具有挑战性,因为现有的有损压缩器是根据不同的原理开发的,这些原理会在不同的 HPC 数据上产生截然不同的压缩误差。 1)开发中(2) 基于数据依赖性和压缩数据的生命周期,通过程序分析和沉积,设计一种细粒度的方法来表征 HPC 程序中的错误传播;(3) 使用机器学习技术开发预测模型,以选择压缩策略:最大限度地减少错误对给定程序和压缩比的影响;(4) 将该技术与实际 HPC 应用程序中特定领域的错误影响指标相结合,并证明其有效性该技术通过选择在相同比率下提供低错误影响的压缩策略不仅对 HPC 网络基础设施产生巨大的积极影响,而且还有助于重新定义有损压缩技术的优化,重点关注效率和错误影响。授予 NSF 的法定使命,并通过评估反映使用基金会的智力优点和更广泛的影响审查标准,被认为值得支持。

项目成果

期刊论文数量(2)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
A Feature-Driven Fixed-Ratio Lossy Compression Framework for Real-World Scientific Datasets
适用于现实世界科学数据集的特征驱动固定比率有损压缩框架
A Feature-Driven Fixed-Ratio Lossy Compression Framework for Real-World Scientific Datasets
适用于现实世界科学数据集的特征驱动固定比率有损压缩框架
{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ patent.updateTime }}

Guanpeng Li其他文献

Understanding Error Propagation in GPGPU Applications
了解 GPGPU 应用程序中的错误传播
Salus: A Novel Data-Driven Monitor that Enables Real-Time Safety in Autonomous Driving Systems
Salus:一种新型数据驱动监控器,可实现自动驾驶系统的实时安全
A Feature-Driven Fixed-Ratio Lossy Compression Framework for Real-World Scientific Datasets
适用于现实世界科学数据集的特征驱动固定比率有损压缩框架
LCFI: A Fault Injection Tool for Studying Lossy Compression Error Propagation in HPC Programs
LCFI:用于研究 HPC 程序中有损压缩错误传播的故障注入工具
Fault Injection for TensorFlow Applications
  • DOI:
    10.1109/tdsc.2022.3175930
  • 发表时间:
    2023-07-01
  • 期刊:
  • 影响因子:
    7.3
  • 作者:
    Niranjhana Narayanan;Zitao Chen;Bo Fang;Guanpeng Li;K. Pattabiraman;Nathan Debardeleben
  • 通讯作者:
    Nathan Debardeleben

Guanpeng Li的其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

相似国自然基金

基于肿瘤病理图片的靶向药物敏感生物标志物识别及统计算法的研究
  • 批准号:
    82304250
  • 批准年份:
    2023
  • 资助金额:
    30 万元
  • 项目类别:
    青年科学基金项目
肠道普拉梭菌代谢物丁酸抑制心室肌铁死亡改善老龄性心功能不全的机制研究
  • 批准号:
    82300430
  • 批准年份:
    2023
  • 资助金额:
    30 万元
  • 项目类别:
    青年科学基金项目
社会网络关系对公司现金持有决策影响——基于共御风险的作用机制研究
  • 批准号:
    72302067
  • 批准年份:
    2023
  • 资助金额:
    30 万元
  • 项目类别:
    青年科学基金项目
面向图像目标检测的新型弱监督学习方法研究
  • 批准号:
    62371157
  • 批准年份:
    2023
  • 资助金额:
    50 万元
  • 项目类别:
    面上项目
面向开放域对话系统信息获取的准确性研究
  • 批准号:
    62376067
  • 批准年份:
    2023
  • 资助金额:
    51 万元
  • 项目类别:
    面上项目

相似海外基金

Collaborative Research: OAC Core: Distributed Graph Learning Cyberinfrastructure for Large-scale Spatiotemporal Prediction
合作研究:OAC Core:用于大规模时空预测的分布式图学习网络基础设施
  • 批准号:
    2403313
  • 财政年份:
    2024
  • 资助金额:
    $ 35万
  • 项目类别:
    Standard Grant
Collaborative Research: OAC Core: Large-Scale Spatial Machine Learning for 3D Surface Topology in Hydrological Applications
合作研究:OAC 核心:水文应用中 3D 表面拓扑的大规模空间机器学习
  • 批准号:
    2414185
  • 财政年份:
    2024
  • 资助金额:
    $ 35万
  • 项目类别:
    Standard Grant
Collaborative Research: OAC Core: CropDL - Scheduling and Checkpoint/Restart Support for Deep Learning Applications on HPC Clusters
合作研究:OAC 核心:CropDL - HPC 集群上深度学习应用的调度和检查点/重启支持
  • 批准号:
    2403088
  • 财政年份:
    2024
  • 资助金额:
    $ 35万
  • 项目类别:
    Standard Grant
Collaborative Research: OAC Core: CropDL - Scheduling and Checkpoint/Restart Support for Deep Learning Applications on HPC Clusters
合作研究:OAC 核心:CropDL - HPC 集群上深度学习应用的调度和检查点/重启支持
  • 批准号:
    2403090
  • 财政年份:
    2024
  • 资助金额:
    $ 35万
  • 项目类别:
    Standard Grant
Collaborative Research: OAC Core: Learning AI Surrogate of Large-Scale Spatiotemporal Simulations for Coastal Circulation
合作研究:OAC Core:学习沿海环流大规模时空模拟的人工智能替代品
  • 批准号:
    2402946
  • 财政年份:
    2024
  • 资助金额:
    $ 35万
  • 项目类别:
    Standard Grant
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了