SHF:Small:Intelligent Management of Hybrid Workloads for Extreme Scale Computing

SHF:Small:超大规模计算混合工作负载的智能管理

基本信息

  • 批准号:
    2109316
  • 负责人:
  • 金额:
    $ 50万
  • 依托单位:
  • 依托单位国家:
    美国
  • 项目类别:
    Standard Grant
  • 财政年份:
    2021
  • 资助国家:
    美国
  • 起止时间:
    2021-10-01 至 2024-01-31
  • 项目状态:
    已结题

项目摘要

The high-performance computing (HPC) community is embracing artificial intelligence (AI) techniques for countless pursuits, from driving ground-breaking scientific discoveries to protecting our national security. As newly emerging machine learning and date-centric workloads proliferate in HPC, current workload-management systems cannot keep up with the significant challenges introduced by the diverse mix of applications co-running on heterogeneous systems. This project tackles the problem by developing new workload-management methods to catalyze the convergence of HPC, AI, and data analytics. It will develop fundamental improvements in HPC workload management to promote the use of large-scale supercomputers for emerging data-centric applications (HPC4AI). Meanwhile it will exploit advanced AI technologies, especially multi-objective reinforcement learning, to empower job scheduling and resource allocation in HPC (AI4HPC). The project aims to develop an intelligent workload-management framework named MINT in which distinctive computational resource requirements of hybrid workloads will be automatically identified and fulfilled to achieve extreme resource efficiency and satisfactory user experience. Key research thrusts are: understanding performance implications of diverse workloads on supercomputers via model-driven analysis; new intelligent multi-resource scheduling methods; smart resource-allocation strategies for minimal workload interference; and extensive evaluation of the proposed framework through trace-based simulation and testing. The deliverables include a new workload-management framework and open-source software releases for intelligent management of hybrid workloads on extreme-scale systems.This award reflects NSF's statutory mission and has been deemed worthy of support through evaluation using the Foundation's intellectual merit and broader impacts review criteria.
高性能计算 (HPC) 社区正在拥抱人工智能 (AI) 技术来实现无数的追求,从推动突破性的科学发现到保护我们的国家安全。随着高性能计算中新兴的机器学习和以数据为中心的工作负载激增,当前的工作负载管理系统无法应对异构系统上共同运行的多种应用程序组合带来的重大挑战。该项目通过开发新的工作负载管理方法来促进 HPC、AI 和数据分析的融合来解决这个问题。它将对 HPC 工作负载管理进行根本性改进,以促进大型超级计算机在新兴的以数据为中心的应用程序 (HPC4AI) 中的使用。同时,它将利用先进的人工智能技术,特别是多目标强化学习,为HPC(AI4HPC)中的作业调度和资源分配赋能。 该项目旨在开发一个名为 MINT 的智能工作负载管理框架,其中混合工作负载的独特计算资源需求将被自动识别并满足,以实现极高的资源效率和令人满意的用户体验。 主要研究重点是:通过模型驱动分析了解超级计算机上不同工作负载的性能影响;全新的智能多资源调度方法;智能资源分配策略,最大限度地减少工作负载干扰;并通过基于跟踪的模拟和测试对所提出的框架进行广泛评估。可交付成果包括新的工作负载管理框架和开源软件版本,用于对超大规模系统上的混合工作负载进行智能管理。该奖项反映了 NSF 的法定使命,并通过使用基金会的智力优势和更广泛的影响进行评估,被认为值得支持审查标准。

项目成果

期刊论文数量(3)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
Generating Topic-Preserving Synthetic News
Domain Adaptive Fake News Detection via Reinforcement Learning
  • DOI:
    10.1145/3485447.3512258
  • 发表时间:
    2022-02
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Ahmadreza Mosallanezhad;Mansooreh Karami;Kai Shu;M. Mancenido;Huan Liu
  • 通讯作者:
    Ahmadreza Mosallanezhad;Mansooreh Karami;Kai Shu;M. Mancenido;Huan Liu
Hybrid Workload Scheduling on HPC Systems
HPC 系统上的混合工作负载调度
{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ patent.updateTime }}

Zhiling Lan其他文献

Surrogate Modeling for HPC Application Iteration Times Forecasting with Network Features
具有网络特征的 HPC 应用程序迭代时间预测的代理建模
  • DOI:
  • 发表时间:
    2024
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Xiongxiao Xu;Kevin A. Brown;Tanwi Mallick;Xin Wang;Elkin Cruz;Robert B. Ross;Christopher D. Carothers;Zhiling Lan;Kai Shu
  • 通讯作者:
    Kai Shu

Zhiling Lan的其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

{{ truncateString('Zhiling Lan', 18)}}的其他基金

SHF:Small:Intelligent Management of Hybrid Workloads for Extreme Scale Computing
SHF:Small:超大规模计算混合工作负载的智能管理
  • 批准号:
    2413597
  • 财政年份:
    2023
  • 资助金额:
    $ 50万
  • 项目类别:
    Standard Grant
Collaborative Research: PPoSS: Planning: SEEr: A Scalable, Energy Efficient HPC Environment for AI-Enabled Science
合作研究:PPoSS:规划:SEEr:面向人工智能科学的可扩展、节能的 HPC 环境
  • 批准号:
    2119294
  • 财政年份:
    2021
  • 资助金额:
    $ 50万
  • 项目类别:
    Standard Grant
CSR: Small: IRON: Reducing Workload Interference on Massively Parallel Platforms
CSR:小:IRON:减少大规模并行平台上的工作负载干扰
  • 批准号:
    1717763
  • 财政年份:
    2017
  • 资助金额:
    $ 50万
  • 项目类别:
    Standard Grant
SHF: Small: Collaborative Research: Experimental-based Research on Effective Models of Parallel Application Execution Time, Power, and Resilience
SHF:小型:协作研究:基于实验的并行应用程序执行时间、功耗和弹性有效模型的研究
  • 批准号:
    1618776
  • 财政年份:
    2016
  • 资助金额:
    $ 50万
  • 项目类别:
    Standard Grant
SHF: CSR: Small: Toward Smart HPC through Active Learning and Intelligent Scheduling
SHF:CSR:小型:通过主动学习和智能调度迈向智能 HPC
  • 批准号:
    1422009
  • 财政年份:
    2014
  • 资助金额:
    $ 50万
  • 项目类别:
    Standard Grant
SHF: CSR: Small: A Cooperative Framework for Topology Awareness on Large-Scale Systems
SHF:CSR:小型:大型系统拓扑意识的合作框架
  • 批准号:
    1320125
  • 财政年份:
    2013
  • 资助金额:
    $ 50万
  • 项目类别:
    Standard Grant
Collaborative Research: Towards Petascale Cosmological Simulations
合作研究:迈向千万亿次宇宙学模拟
  • 批准号:
    0904670
  • 财政年份:
    2009
  • 资助金额:
    $ 50万
  • 项目类别:
    Standard Grant
CSR-PSCE,SM: Recovery Aware Parallel Computing
CSR-PSCE,SM:恢复感知并行计算
  • 批准号:
    0834514
  • 财政年份:
    2008
  • 资助金额:
    $ 50万
  • 项目类别:
    Continuing Grant
CSR/AES: Enhancing Application Robustness via Adaptive and Cooperative Methods
CSR/AES:通过自适应和协作方法增强应用程序的稳健性
  • 批准号:
    0720549
  • 财政年份:
    2007
  • 资助金额:
    $ 50万
  • 项目类别:
    Standard Grant

相似国自然基金

单细胞分辨率下的石杉碱甲介导小胶质细胞极化表型抗缺血性脑卒中的机制研究
  • 批准号:
    82304883
  • 批准年份:
    2023
  • 资助金额:
    30 万元
  • 项目类别:
    青年科学基金项目
小分子无半胱氨酸蛋白调控生防真菌杀虫活性的作用与机理
  • 批准号:
    32372613
  • 批准年份:
    2023
  • 资助金额:
    50 万元
  • 项目类别:
    面上项目
诊疗一体化PS-Hc@MB协同训练介导脑小血管病康复的作用及机制研究
  • 批准号:
    82372561
  • 批准年份:
    2023
  • 资助金额:
    49 万元
  • 项目类别:
    面上项目
非小细胞肺癌MECOM/HBB通路介导血红素代谢异常并抑制肿瘤起始细胞铁死亡的机制研究
  • 批准号:
    82373082
  • 批准年份:
    2023
  • 资助金额:
    49 万元
  • 项目类别:
    面上项目
FATP2/HILPDA/SLC7A11轴介导肿瘤相关中性粒细胞脂代谢重编程影响非小细胞肺癌放疗免疫的作用和机制研究
  • 批准号:
    82373304
  • 批准年份:
    2023
  • 资助金额:
    49 万元
  • 项目类别:
    面上项目

相似海外基金

SHF:Small:Intelligent Management of Hybrid Workloads for Extreme Scale Computing
SHF:Small:超大规模计算混合工作负载的智能管理
  • 批准号:
    2413597
  • 财政年份:
    2023
  • 资助金额:
    $ 50万
  • 项目类别:
    Standard Grant
SHF:Small:RUI: Optimizing Compiler Instruction Scheduling Using GPU-Accelerated Intelligent Search
SHF:Small:RUI:使用 GPU 加速智能搜索优化编译器指令调度
  • 批准号:
    1911235
  • 财政年份:
    2019
  • 资助金额:
    $ 50万
  • 项目类别:
    Standard Grant
SHF: Small: Science and Tools for Intelligent Developer Testing
SHF:小型:智能开发人员测试的科学和工具
  • 批准号:
    1816615
  • 财政年份:
    2018
  • 资助金额:
    $ 50万
  • 项目类别:
    Standard Grant
SHF: Small: Asked and Answered: Intelligent Data Science for Software Projects
SHF:小型:询问和回答:软件项目的智能数据科学
  • 批准号:
    1649448
  • 财政年份:
    2016
  • 资助金额:
    $ 50万
  • 项目类别:
    Standard Grant
SHF: Small: Asked and Answered: Intelligent Data Science for Software Projects
SHF:小型:询问和回答:软件项目的智能数据科学
  • 批准号:
    1618693
  • 财政年份:
    2016
  • 资助金额:
    $ 50万
  • 项目类别:
    Standard Grant
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了