Collaborative Research: SHF: Small: Rethinking Performance Variation for Emerging Applications - An Application-centric and Cross-layer Approach

协作研究:SHF:小型:重新思考新兴应用程序的性能变化 - 以应用程序为中心的跨层方法

基本信息

  • 批准号:
    2134203
  • 负责人:
  • 金额:
    $ 30.98万
  • 依托单位:
  • 依托单位国家:
    美国
  • 项目类别:
    Standard Grant
  • 财政年份:
    2022
  • 资助国家:
    美国
  • 起止时间:
    2022-01-01 至 2024-12-31
  • 项目状态:
    已结题

项目摘要

High-performance computing (HPC) is moving rapidly to the unparalleled level of exaflops in 2021, when the first exascale systems will be ready for science production. Despite the peak performance obtained by simplistic benchmarks during the maintenance window when no other users are allowed to access the system, applications routinely suffer from performance variations as a result of intra- or inter-application interference over storage and network. The consequence is the low system utilization and prolonged time to insights for applications. To address this challenge, this project aims to develop new methods in memory and input/output (I/O) that can significantly reduce the performance variation for large scientific applications. This project provides integrated research and education activities to nurture next-generation computer researchers and engineers in the area of HPC, particularly for those from under-represented groups, to strengthen the U.S. competitiveness in computational science and engineering. This project aims to address the performance variation issue on HPC systems using a novel application-centric approach across the system stack. To address increasing resource contention, a selective hint-sharing scheme is designed to reduce the overall performance variation, and a cluster-partition technique is developed to regulate the scale of hint sharing. In addition, a feedback mechanism is incorporated to adjust the hint traffic according to the degree of performance-variation reduction. Based upon memory-access similarity, memory pages or work nodes sharing high similarity are grouped together to optimize the memory-system performance. Furthermore, a rule-based I/O re-routing scheme, where I/O traffic is re-routed based upon not only the interference profile, but also the requirements of downstream data analytics. In particular, an error-bounded coarsening technique that reacts to performance variation by adjusting the fidelity of an HPC application is explored. The integrated research activities in this project will significantly improve the understanding and methods in managing performance variations for large computational science and engineering applications.This award reflects NSF's statutory mission and has been deemed worthy of support through evaluation using the Foundation's intellectual merit and broader impacts review criteria.
高性能计算 (HPC) 正在迅速发展到 2021 年无与伦比的 exaflops 水平,届时第一个 exascale 系统将准备好用于科学生产。尽管在不允许其他用户访问系统的维护窗口期间通过简单的基准测试获得了峰值性能,但由于存储和网络上的应用程序内或应用程序间的干扰,应用程序通常会遭受性能变化。其结果是系统利用率低,并且洞察应用程序的时间延长。为了应对这一挑战,该项目旨在开发内存和输入/输出 (I/O) 方面的新方法,以显着减少大型科学应用的性能变化。该项目提供综合研究和教育活动,以培养高性能计算领域的下一代计算机研究人员和工程师,特别是那些来自代表性不足群体的人,以增强美国在计算科学和工程领域的竞争力。该项目旨在在整个系统堆栈中使用一种新颖的以应用程序为中心的方法来解决 HPC 系统的性能变化问题。为了解决日益增加的资源争用问题,设计了选择性提示共享方案来减少整体性能变化,并开发了集群分区技术来调节提示共享的规模。此外,还结合了反馈机制,以根据性能变化减少的程度来调整提示流量。基于内存访问相似性,具有高相似性的内存页面或工作节点被分组在一起以优化内存系统性能。此外,基于规则的 I/O 重新路由方案,其中 I/O 流量不仅根据干扰情况进行重新路由,还根据下游数据分析的要求进行重新路由。特别是,探索了一种误差有限的粗化技术,该技术通过调整 HPC 应用程序的保真度来对性能变化做出反应。该项目中的综合研究活动将显着提高管理大型计算科学和工程应用性能变化的理解和方法。该奖项反映了 NSF 的法定使命,并通过使用基金会的智力价值和更广泛的影响审查进行评估,被认为值得支持标准。

项目成果

期刊论文数量(4)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
Zperf: A Statistical Gray-Box Approach to Performance Modeling and Extrapolation for Scientific Lossy Compression
Zperf:科学有损压缩性能建模和外推的统计灰盒方法
  • DOI:
    10.1109/tc.2023.3257517
  • 发表时间:
    2023-01
  • 期刊:
  • 影响因子:
    3.7
  • 作者:
    Wang, Jinzhen;Chen, Qi;Liu, Tong;Liu, Qing;He, Xubin
  • 通讯作者:
    He, Xubin
Locality-based transfer learning on compression autoencoder for efficient scientific data lossy compression
基于局部性的压缩自动编码器迁移学习,实现高效的科学数据有损压缩
  • DOI:
    10.1016/j.jnca.2022.103452
  • 发表时间:
    2022-09
  • 期刊:
  • 影响因子:
    8.7
  • 作者:
    Wang, Nan;Liu, Tong;Wang, Jinzhen;Liu, Qing;Alibhai, Shakeel;He, Xubin
  • 通讯作者:
    He, Xubin
Improving Progressive Retrieval for HPC Scientific Data using Deep Neural Network
使用深度神经网络改进 HPC 科学数据的渐进检索
  • DOI:
    10.1109/icde55515.2023.00209
  • 发表时间:
    2023-04
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Wang, Jinzhen;Liang, Xin;Whitney, Ben;Chen, Jieyang;Gong, Qian;He, Xubin;Wan, Lipeng;Klasky, Scott;Podhorszki, Norbert;Liu, Qing
  • 通讯作者:
    Liu, Qing
Exploring Memory Access Similarity to Improve Irregular Application Performance for Distributed Hybrid Memory Systems
探索内存访问相似性以提高分布式混合内存系统的不规则应用程序性能
{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ patent.updateTime }}

Xubin He其他文献

Exploiting Minipage-Level Mapping to Improve Write Efficiency of NAND Flash
利用小页级映射提高 NAND 闪存写入效率
zPerf: A Statistical Gray-Box Approach to Performance Modeling and Extrapolation for Scientific Lossy Compression
zPerf:科学有损压缩性能建模和外推的统计灰盒方法
  • DOI:
  • 发表时间:
    2023
  • 期刊:
  • 影响因子:
    3.7
  • 作者:
    Jinzhen Wang;Qi Chen;Tong Liu;Qing Liu;Xubin He
  • 通讯作者:
    Xubin He
BPAC: An adaptive write buffer management scheme for flash-based Solid State Drives
BPAC:基于闪存的固态驱动器的自适应写入缓冲区管理方案
LAMS: A latency-aware memory scheduling policy for modern DRAM systems
LAMS:现代 DRAM 系统的延迟感知内存调度策略
Prediction of adsorption performance of ZIF-67 for malachite green based on artificial neural network using L-BFGS algorithm.
使用L-BFGS算法基于人工神经网络预测ZIF-67对孔雀石绿的吸附性能。
  • DOI:
    10.1016/j.jhazmat.2024.134629
  • 发表时间:
    2024-05-15
  • 期刊:
  • 影响因子:
    13.6
  • 作者:
    Xiaoqing Wang;Shangkun Liu;Shaolei Chen;Xubin He;Wenjing Duan;Siyuan Wang;Junzi Zhao;Liangquan Zhang;Qing Chen;Chunhua Xiong
  • 通讯作者:
    Chunhua Xiong

Xubin He的其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

{{ truncateString('Xubin He', 18)}}的其他基金

Collaborative Research: Elements: ProDM: Developing A Unified Progressive Data Management Library for Exascale Computational Science
协作研究:要素:ProDM:为百亿亿次计算科学开发统一的渐进式数据管理库
  • 批准号:
    2311758
  • 财政年份:
    2023
  • 资助金额:
    $ 30.98万
  • 项目类别:
    Standard Grant
SHF:Small: Collaborative Research: Understanding, Modeling, and System Support for HPC Data Reduction
SHF:Small:协作研究:HPC 数据缩减的理解、建模和系统支持
  • 批准号:
    1813081
  • 财政年份:
    2018
  • 资助金额:
    $ 30.98万
  • 项目类别:
    Standard Grant
SHF:Small: Collaborative Research: Tailoring Memory Systems for Data-Intensive HPC Applications
SHF:Small:协作研究:为数据密集型 HPC 应用定制内存系统
  • 批准号:
    1717660
  • 财政年份:
    2017
  • 资助金额:
    $ 30.98万
  • 项目类别:
    Standard Grant
SHF: Small: ASF: An Adaptive Scaling Framework for High Scalability of XOR-Based RAID Systems
SHF:小型:ASF:基于 XOR 的 RAID 系统的高可扩展性的自适应扩展框架
  • 批准号:
    1702474
  • 财政年份:
    2016
  • 资助金额:
    $ 30.98万
  • 项目类别:
    Standard Grant
CSR: Small: Cost Effective, High Performance Solutions Using Erasure Codes for Big Data Management in Large Data Centers
CSR:小型:在大型数据中心使用纠删码进行大数据管理的经济高效、高性能解决方案
  • 批准号:
    1700719
  • 财政年份:
    2016
  • 资助金额:
    $ 30.98万
  • 项目类别:
    Standard Grant
SHF: Small: ASF: An Adaptive Scaling Framework for High Scalability of XOR-Based RAID Systems
SHF:小型:ASF:基于 XOR 的 RAID 系统的高可扩展性的自适应扩展框架
  • 批准号:
    1320349
  • 财政年份:
    2014
  • 资助金额:
    $ 30.98万
  • 项目类别:
    Standard Grant
CSR: Small: Cost Effective, High Performance Solutions Using Erasure Codes for Big Data Management in Large Data Centers
CSR:小型:在大型数据中心使用纠删码进行大数据管理的经济高效、高性能解决方案
  • 批准号:
    1218960
  • 财政年份:
    2012
  • 资助金额:
    $ 30.98万
  • 项目类别:
    Standard Grant
RUI: Automatic Identification of I/O Bottleneck and Run-time Optimization for Cluster Virtualization
RUI:集群虚拟化I/O瓶颈自动识别与运行时优化
  • 批准号:
    1102624
  • 财政年份:
    2010
  • 资助金额:
    $ 30.98万
  • 项目类别:
    Standard Grant
Collaborative Research: Cross-Layer Exploration of Non-Volatile Solid-State Memories to Achieve Effective I/O Stack for High-Performance Computing Systems
协作研究:非易失性固态存储器的跨层探索,为高性能计算系统实现有效的 I/O 堆栈
  • 批准号:
    1102605
  • 财政年份:
    2010
  • 资助金额:
    $ 30.98万
  • 项目类别:
    Standard Grant
CSR---PDOS: A Benchmarking Framework for High-Availability Distributed Storage Systems
CSR---PDOS:高可用分布式存储系统的基准框架
  • 批准号:
    1102629
  • 财政年份:
    2010
  • 资助金额:
    $ 30.98万
  • 项目类别:
    Continuing Grant

相似国自然基金

面向5G通信的超高频FBAR耗散机理和耗散稳定性研究
  • 批准号:
    12302200
  • 批准年份:
    2023
  • 资助金额:
    30 万元
  • 项目类别:
    青年科学基金项目
宽运行范围超高频逆变系统架构拓扑与调控策略研究
  • 批准号:
    52377175
  • 批准年份:
    2023
  • 资助金额:
    50 万元
  • 项目类别:
    面上项目
超高频同步整流DC-DC变换器效率优化关键技术研究
  • 批准号:
    62301375
  • 批准年份:
    2023
  • 资助金额:
    30 万元
  • 项目类别:
    青年科学基金项目
衔接蛋白SHF负向调控胶质母细胞瘤中EGFR/EGFRvIII再循环和稳定性的功能及机制研究
  • 批准号:
    82302939
  • 批准年份:
    2023
  • 资助金额:
    30 万元
  • 项目类别:
    青年科学基金项目
超高频光声频谱渐进式调制下的光声显微成像轴向分辨率提升研究
  • 批准号:
    62265011
  • 批准年份:
    2022
  • 资助金额:
    34 万元
  • 项目类别:
    地区科学基金项目

相似海外基金

Collaborative Research: SHF: Medium: Enabling Graphics Processing Unit Performance Simulation for Large-Scale Workloads with Lightweight Simulation Methods
合作研究:SHF:中:通过轻量级仿真方法实现大规模工作负载的图形处理单元性能仿真
  • 批准号:
    2402804
  • 财政年份:
    2024
  • 资助金额:
    $ 30.98万
  • 项目类别:
    Standard Grant
Collaborative Research: SHF: Small: LEGAS: Learning Evolving Graphs At Scale
协作研究:SHF:小型:LEGAS:大规模学习演化图
  • 批准号:
    2331301
  • 财政年份:
    2024
  • 资助金额:
    $ 30.98万
  • 项目类别:
    Standard Grant
Collaborative Research: SHF: Medium: Enabling GPU Performance Simulation for Large-Scale Workloads with Lightweight Simulation Methods
合作研究:SHF:中:通过轻量级仿真方法实现大规模工作负载的 GPU 性能仿真
  • 批准号:
    2402806
  • 财政年份:
    2024
  • 资助金额:
    $ 30.98万
  • 项目类别:
    Standard Grant
Collaborative Research: SHF: Small: Efficient and Scalable Privacy-Preserving Neural Network Inference based on Ciphertext-Ciphertext Fully Homomorphic Encryption
合作研究:SHF:小型:基于密文-密文全同态加密的高效、可扩展的隐私保护神经网络推理
  • 批准号:
    2412357
  • 财政年份:
    2024
  • 资助金额:
    $ 30.98万
  • 项目类别:
    Standard Grant
Collaborative Research: SHF: Medium: Toward Understandability and Interpretability for Neural Language Models of Source Code
合作研究:SHF:媒介:实现源代码神经语言模型的可理解性和可解释性
  • 批准号:
    2423813
  • 财政年份:
    2024
  • 资助金额:
    $ 30.98万
  • 项目类别:
    Standard Grant
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了