Collaborative Research: CSR: Medium: Fortuna: Characterizing and Harnessing Performance Variability in Accelerator-rich Clusters
合作研究:CSR:Medium:Fortuna:表征和利用富含加速器的集群中的性能变异性
基本信息
- 批准号:2401244
- 负责人:
- 金额:$ 33.31万
- 依托单位:
- 依托单位国家:美国
- 项目类别:Continuing Grant
- 财政年份:2023
- 资助国家:美国
- 起止时间:2023-10-01 至 2026-09-30
- 项目状态:未结题
- 来源:
- 关键词:
项目摘要
Large computing clusters, including data centers and supercomputers, are used for a variety of applications including scientific computations and machine learning. Modern compute clusters typically use specialized accelerator hardware to speed up computations. Operators of accelerator-rich clusters aim to have high resource utilization across all users of the cluster. However, these systems are often under-utilized due to performance variability across accelerators; that is, application performance varies across accelerators even when the same application is run on the same type of accelerator. This proposal will develop Fortuna, a set of tools that can be used by cluster operators and researchers to characterize and harness variability across accelerators. First, Fortuna will use new methodologies to characterize how much performance variability exists across a wide range of accelerator hardware. Second, Fortuna will identify which applications are more likely to suffer from performance variability. Finally, Fortuna will include new scheduling mechanisms that can use variability measurements and knowledge about applications to improve utilization.Broader impacts of the proposed research include open-source implementations of algorithms and tools, which will be applicable to many large-scale clusters and lay the groundwork for wider industry adoption. The project will also create course modules on system design principles with heterogeneous hardware and software, based on the tools developed as a part of the proposal. This will teach the next generation of students how to design hardware and software to improve utilization of future systems.This award reflects NSF's statutory mission and has been deemed worthy of support through evaluation using the Foundation's intellectual merit and broader impacts review criteria.
大型计算集群(包括数据中心和超级计算机)用于包括科学计算和机器学习在内的各种应用。现代计算簇通常使用专门的加速器硬件来加快计算。富含加速器的群集的运营商旨在在集群的所有用户中具有高度的资源利用率。但是,由于加速器之间的性能变异性,这些系统通常被低估了。也就是说,即使在同一类型的加速器上运行相同的应用程序,应用程序性能也会因加速器而异。该提案将开发Fortuna,这是一套由集群操作员和研究人员使用的工具,以表征和利用加速器之间的变异性。首先,Fortuna将使用新的方法来表征各种加速器硬件的性能可变性。其次,Fortuna将确定哪些应用更可能患有性能变异性。最后,Fortuna将包括可以使用可变性测量和有关应用程序的知识来改善利用率的新调度机制。拟议研究的Boader影响包括算法和工具的开源实现,这些实施将适用于许多大型群集,并为更广泛的行业采用奠定基础。该项目还将基于提案的一部分开发的工具,创建具有异质硬件和软件的系统设计原理的课程模块。这将教导下一代学生如何设计硬件和软件以改善对未来系统的利用。该奖项反映了NSF的法定任务,并认为使用基金会的知识分子优点和更广泛的影响审查标准,被认为值得通过评估。
项目成果
期刊论文数量(0)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
数据更新时间:{{ journalArticles.updateTime }}
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
数据更新时间:{{ journalArticles.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ monograph.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ sciAawards.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ conferencePapers.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ patent.updateTime }}
Zhao Zhang其他文献
Probe-Type Microforce Sensor for Mirco/Nano Experimental Mechanics
用于微/纳米实验力学的探针式微力传感器
- DOI:
10.4028/www.scientific.net/amr.33-37.943 - 发表时间:
2008-03 - 期刊:
- 影响因子:0
- 作者:
Xide Li;Zhao Zhang - 通讯作者:
Zhao Zhang
3D trajectory tracking control of an underactuated AUV based on adaptive neural network dynamic surface
基于自适应神经网络动态面的欠驱动AUV 3D轨迹跟踪控制
- DOI:
10.1504/ijvd.2020.115864 - 发表时间:
2020 - 期刊:
- 影响因子:0.5
- 作者:
Xiao Liang;Zhao Zhang;Xingru Qu - 通讯作者:
Xingru Qu
Uncertainty analysis and robust design optimization for the heat-assisted bending of high-strength titanium tube
高强钛管热辅助弯曲的不确定性分析与鲁棒设计优化
- DOI:
10.1007/s11431-021-1881-8 - 发表时间:
2021-09 - 期刊:
- 影响因子:0
- 作者:
Zhao Zhang;Jingchao Yang;Weiliang Huang;Jun Ma;Heng Li - 通讯作者:
Heng Li
Tunable erbium-doped fiber ring laser based on an all-fiber filter
基于全光纤滤波器的可调谐掺铒光纤环形激光器
- DOI:
10.1117/12.2000105 - 发表时间:
2012 - 期刊:
- 影响因子:0
- 作者:
X. Ji;Z. Cao;Zhao Zhang;Tao Shui;Wenliang Hao;B. Yu - 通讯作者:
B. Yu
An efficient and convenient formal synthesis of Jaspine B from D-xylose.
由 D-木糖高效、便捷地正式合成 Jaspine B。
- DOI:
10.1016/j.carres.2012.01.013 - 发表时间:
2012-04 - 期刊:
- 影响因子:3.1
- 作者:
Zhao Zhang;Yu-Tao Zhao;Wen Qu;Hong-Min Liu - 通讯作者:
Hong-Min Liu
Zhao Zhang的其他文献
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
{{ truncateString('Zhao Zhang', 18)}}的其他基金
CAREER: Efficient and Scalable Large Foundational Model Training on Supercomputers for Science
职业:科学超级计算机上高效且可扩展的大型基础模型训练
- 批准号:
2340011 - 财政年份:2024
- 资助金额:
$ 33.31万 - 项目类别:
Standard Grant
Collaborative Research: Frameworks: hpcGPT: Enhancing Computing Center User Support with HPC-enriched Generative AI
协作研究:框架:hpcGPT:通过 HPC 丰富的生成式 AI 增强计算中心用户支持
- 批准号:
2411294 - 财政年份:2024
- 资助金额:
$ 33.31万 - 项目类别:
Standard Grant
Collaborative Research: CSR: Medium: Fortuna: Characterizing and Harnessing Performance Variability in Accelerator-rich Clusters
合作研究:CSR:Medium:Fortuna:表征和利用富含加速器的集群中的性能变异性
- 批准号:
2312689 - 财政年份:2023
- 资助金额:
$ 33.31万 - 项目类别:
Continuing Grant
Collaborative Research: Frameworks: Diamond: Democratizing Large Neural Network Model Training for Science
合作研究:框架:钻石:科学大型神经网络模型训练的民主化
- 批准号:
2311766 - 财政年份:2023
- 资助金额:
$ 33.31万 - 项目类别:
Standard Grant
Collaborative Research: OAC Core: ScaDL: New Approaches to Scaling Deep Learning for Science Applications on Supercomputers
协作研究:OAC 核心:ScaDL:在超级计算机上扩展深度学习科学应用的新方法
- 批准号:
2401246 - 财政年份:2023
- 资助金额:
$ 33.31万 - 项目类别:
Standard Grant
Collaborative Research: Frameworks: Diamond: Democratizing Large Neural Network Model Training for Science
合作研究:框架:钻石:科学大型神经网络模型训练的民主化
- 批准号:
2401245 - 财政年份:2023
- 资助金额:
$ 33.31万 - 项目类别:
Standard Grant
Collaborative Research: OAC Core: ScaDL: New Approaches to Scaling Deep Learning for Science Applications on Supercomputers
协作研究:OAC 核心:ScaDL:在超级计算机上扩展深度学习科学应用的新方法
- 批准号:
2106661 - 财政年份:2021
- 资助金额:
$ 33.31万 - 项目类别:
Standard Grant
Collaborative Research: OAC Core: Small: Efficient and Policy-driven Burst Buffer Sharing
合作研究:OAC Core:小型:高效且策略驱动的突发缓冲区共享
- 批准号:
2008388 - 财政年份:2020
- 资助金额:
$ 33.31万 - 项目类别:
Standard Grant
SHF: Medium:Collaborative Research: Architectural and System Support for Building Versatile Memory Systems
SHF:媒介:协作研究:构建多功能内存系统的架构和系统支持
- 批准号:
1643271 - 财政年份:2016
- 资助金额:
$ 33.31万 - 项目类别:
Continuing Grant
SHF: Medium:Collaborative Research: Architectural and System Support for Building Versatile Memory Systems
SHF:媒介:协作研究:构建多功能内存系统的架构和系统支持
- 批准号:
1514229 - 财政年份:2015
- 资助金额:
$ 33.31万 - 项目类别:
Continuing Grant
相似国自然基金
善行得善果?后疫情时代嵌入式和边缘式CSR对员工幸福感的跨层影响研究
- 批准号:72102183
- 批准年份:2021
- 资助金额:24.00 万元
- 项目类别:青年科学基金项目
善行得善果?后疫情时代嵌入式和边缘式CSR对员工幸福感的跨层影响研究
- 批准号:
- 批准年份:2021
- 资助金额:30 万元
- 项目类别:
基于脊髓突触可塑性探讨“调气”电针远端腧穴干预CSR模型大鼠的中枢镇痛效应及机制研究
- 批准号:82160934
- 批准年份:2021
- 资助金额:34 万元
- 项目类别:地区科学基金项目
利用输运模型和机器学习方法研究CSR能区的低温高密核物质
- 批准号:
- 批准年份:2020
- 资助金额:50 万元
- 项目类别:联合基金项目
基于兰州HIRFL-CSR装置对轻原子核的团簇结构及晕结构的理论研究
- 批准号:
- 批准年份:2020
- 资助金额:60 万元
- 项目类别:联合基金项目
相似海外基金
Collaborative Research: CSR: Medium: Scaling Secure Serverless Computing on Heterogeneous Datacenters
协作研究:CSR:中:在异构数据中心上扩展安全无服务器计算
- 批准号:
2312206 - 财政年份:2023
- 资助金额:
$ 33.31万 - 项目类别:
Continuing Grant
Collaborative Research: CSR: Medium: Architecting GPUs for Practical Homomorphic Encryption-based Computing
协作研究:CSR:中:为实用的同态加密计算构建 GPU
- 批准号:
2312276 - 财政年份:2023
- 资助金额:
$ 33.31万 - 项目类别:
Continuing Grant
Collaborative Research: CSR: Medium: Fortuna: Characterizing and Harnessing Performance Variability in Accelerator-rich Clusters
合作研究:CSR:Medium:Fortuna:表征和利用富含加速器的集群中的性能变异性
- 批准号:
2312689 - 财政年份:2023
- 资助金额:
$ 33.31万 - 项目类别:
Continuing Grant
Collaborative Research: CSR: Small: Caphammer: A New Security Exploit in Energy Harvesting Systems and its Countermeasures
合作研究:CSR:小型:Caphammer:能量收集系统的新安全漏洞及其对策
- 批准号:
2314681 - 财政年份:2023
- 资助金额:
$ 33.31万 - 项目类别:
Continuing Grant
Collaborative Research: CSR: Small: Expediting Continual Online Learning on Edge Platforms through Software-Hardware Co-designs
协作研究:企业社会责任:小型:通过软硬件协同设计加快边缘平台上的持续在线学习
- 批准号:
2312157 - 财政年份:2023
- 资助金额:
$ 33.31万 - 项目类别:
Standard Grant