SHF:Small:Intelligent Management of Hybrid Workloads for Extreme Scale Computing
SHF:Small:超大规模计算混合工作负载的智能管理
基本信息
- 批准号:2109316
- 负责人:
- 金额:$ 50万
- 依托单位:
- 依托单位国家:美国
- 项目类别:Standard Grant
- 财政年份:2021
- 资助国家:美国
- 起止时间:2021-10-01 至 2024-01-31
- 项目状态:已结题
- 来源:
- 关键词:
项目摘要
The high-performance computing (HPC) community is embracing artificial intelligence (AI) techniques for countless pursuits, from driving ground-breaking scientific discoveries to protecting our national security. As newly emerging machine learning and date-centric workloads proliferate in HPC, current workload-management systems cannot keep up with the significant challenges introduced by the diverse mix of applications co-running on heterogeneous systems. This project tackles the problem by developing new workload-management methods to catalyze the convergence of HPC, AI, and data analytics. It will develop fundamental improvements in HPC workload management to promote the use of large-scale supercomputers for emerging data-centric applications (HPC4AI). Meanwhile it will exploit advanced AI technologies, especially multi-objective reinforcement learning, to empower job scheduling and resource allocation in HPC (AI4HPC). The project aims to develop an intelligent workload-management framework named MINT in which distinctive computational resource requirements of hybrid workloads will be automatically identified and fulfilled to achieve extreme resource efficiency and satisfactory user experience. Key research thrusts are: understanding performance implications of diverse workloads on supercomputers via model-driven analysis; new intelligent multi-resource scheduling methods; smart resource-allocation strategies for minimal workload interference; and extensive evaluation of the proposed framework through trace-based simulation and testing. The deliverables include a new workload-management framework and open-source software releases for intelligent management of hybrid workloads on extreme-scale systems.This award reflects NSF's statutory mission and has been deemed worthy of support through evaluation using the Foundation's intellectual merit and broader impacts review criteria.
高性能计算 (HPC) 社区正在拥抱人工智能 (AI) 技术来实现无数的追求,从推动突破性的科学发现到保护我们的国家安全。随着高性能计算中新兴的机器学习和以数据为中心的工作负载激增,当前的工作负载管理系统无法应对异构系统上共同运行的多种应用程序组合带来的重大挑战。该项目通过开发新的工作负载管理方法来促进 HPC、AI 和数据分析的融合来解决这个问题。它将对 HPC 工作负载管理进行根本性改进,以促进大型超级计算机在新兴的以数据为中心的应用程序 (HPC4AI) 中的使用。同时,它将利用先进的人工智能技术,特别是多目标强化学习,为HPC(AI4HPC)中的作业调度和资源分配赋能。 该项目旨在开发一个名为 MINT 的智能工作负载管理框架,其中混合工作负载的独特计算资源需求将被自动识别和满足,以实现极高的资源效率和令人满意的用户体验。 主要研究重点是:通过模型驱动分析了解超级计算机上不同工作负载的性能影响;新型智能多资源调度方法;智能资源分配策略,最大限度地减少工作负载干扰;并通过基于跟踪的模拟和测试对所提出的框架进行广泛评估。可交付成果包括新的工作负载管理框架和开源软件版本,用于对超大规模系统上的混合工作负载进行智能管理。该奖项反映了 NSF 的法定使命,并通过使用基金会的智力优势和更广泛的影响进行评估,被认为值得支持审查标准。
项目成果
期刊论文数量(3)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
Generating Topic-Preserving Synthetic News
生成保留主题的综合新闻
- DOI:10.1109/bigdata52589.2021.9671623
- 发表时间:2021-12-15
- 期刊:
- 影响因子:0
- 作者:Ahmadreza Mosallanezhad;Kai Shu;Huan Liu
- 通讯作者:Huan Liu
Hybrid Workload Scheduling on HPC Systems
HPC 系统上的混合工作负载调度
- DOI:10.1109/ipdps53621.2022.00052
- 发表时间:2022-05
- 期刊:
- 影响因子:0
- 作者:Fan, Yuping;Lan, Zhiling;Rich, Paul;Allcock, William;Papka, Michael E.
- 通讯作者:Papka, Michael E.
Domain Adaptive Fake News Detection via Reinforcement Learning
通过强化学习进行领域自适应假新闻检测
- DOI:10.1145/3485447.3512258
- 发表时间:2022-02-16
- 期刊:
- 影响因子:0
- 作者:Ahmadreza Mosallanezhad;Mansooreh Karami;Kai Shu;M. Mancenido;Huan Liu
- 通讯作者:Huan Liu
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
数据更新时间:{{ journalArticles.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ monograph.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ sciAawards.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ conferencePapers.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ patent.updateTime }}
Zhiling Lan其他文献
Interpretable Modeling of Deep Reinforcement Learning Driven Scheduling
深度强化学习驱动调度的可解释建模
- DOI:
10.1109/mascots59514.2023.10387651 - 发表时间:
2023-10-16 - 期刊:
- 影响因子:0
- 作者:
Boyang Li;Zhiling Lan;M. Papka - 通讯作者:
M. Papka
Surrogate Modeling for HPC Application Iteration Times Forecasting with Network Features
具有网络特征的 HPC 应用程序迭代时间预测的代理建模
- DOI:
- 发表时间:
2024 - 期刊:
- 影响因子:0
- 作者:
Xiongxiao Xu;Kevin A. Brown;Tanwi Mallick;Xin Wang;Elkin Cruz;Robert B. Ross;Christopher D. Carothers;Zhiling Lan;Kai Shu - 通讯作者:
Kai Shu
Integrating Mamba and Transformer for Long-Short Range Time Series Forecasting
集成 Mamba 和 Transformer 进行长短期时间序列预测
- DOI:
10.48550/arxiv.2404.14757 - 发表时间:
2024-04-23 - 期刊:
- 影响因子:0
- 作者:
Xiongxiao Xu;Yueqing Liang;Baixiang Huang;Zhiling Lan;Kai Shu - 通讯作者:
Kai Shu
Evaluation of oral Lanzhou lamb rotavirus vaccine via passive transfusion with CD4(+)/CD8(+) T lymphocytes.
CD4( )/CD8( ) T淋巴细胞被动输注兰州羔羊轮状病毒口服疫苗的评价
- DOI:
- 发表时间:
2016 - 期刊:
- 影响因子:5
- 作者:
Jialiang Du;Zhiling Lan;Yueshuai Liu;Yan Liu;Qingchuan Yu;Yanchao Li;T. Guo - 通讯作者:
T. Guo
Inhalation Study of Mycobacteriophage D29 Aerosol for Mice by Endotracheal Route and Nose-Only Exposure.
通过气管内途径和仅鼻子暴露对小鼠分枝杆菌噬菌体 D29 气雾剂的吸入研究。
- DOI:
10.1089/jamp.2015.1233 - 发表时间:
2016-10-01 - 期刊:
- 影响因子:0
- 作者:
Ke;Wenhui Yang;Xiao;L. Cong;Na Li;Yun Li;Zhan;Zhe Yin;Zhiling Lan - 通讯作者:
Zhiling Lan
Zhiling Lan的其他文献
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
{{ truncateString('Zhiling Lan', 18)}}的其他基金
SHF:Small:Intelligent Management of Hybrid Workloads for Extreme Scale Computing
SHF:Small:超大规模计算混合工作负载的智能管理
- 批准号:
2413597 - 财政年份:2023
- 资助金额:
$ 50万 - 项目类别:
Standard Grant
Collaborative Research: PPoSS: Planning: SEEr: A Scalable, Energy Efficient HPC Environment for AI-Enabled Science
合作研究:PPoSS:规划:SEEr:面向人工智能科学的可扩展、节能的 HPC 环境
- 批准号:
2119294 - 财政年份:2021
- 资助金额:
$ 50万 - 项目类别:
Standard Grant
CSR: Small: IRON: Reducing Workload Interference on Massively Parallel Platforms
CSR:小:IRON:减少大规模并行平台上的工作负载干扰
- 批准号:
1717763 - 财政年份:2017
- 资助金额:
$ 50万 - 项目类别:
Standard Grant
SHF: Small: Collaborative Research: Experimental-based Research on Effective Models of Parallel Application Execution Time, Power, and Resilience
SHF:小型:协作研究:基于实验的并行应用程序执行时间、功耗和弹性有效模型的研究
- 批准号:
1618776 - 财政年份:2016
- 资助金额:
$ 50万 - 项目类别:
Standard Grant
SHF: CSR: Small: Toward Smart HPC through Active Learning and Intelligent Scheduling
SHF:CSR:小型:通过主动学习和智能调度迈向智能 HPC
- 批准号:
1422009 - 财政年份:2014
- 资助金额:
$ 50万 - 项目类别:
Standard Grant
SHF: CSR: Small: A Cooperative Framework for Topology Awareness on Large-Scale Systems
SHF:CSR:小型:大型系统拓扑意识的合作框架
- 批准号:
1320125 - 财政年份:2013
- 资助金额:
$ 50万 - 项目类别:
Standard Grant
Collaborative Research: Towards Petascale Cosmological Simulations
合作研究:迈向千万亿次宇宙学模拟
- 批准号:
0904670 - 财政年份:2009
- 资助金额:
$ 50万 - 项目类别:
Standard Grant
CSR-PSCE,SM: Recovery Aware Parallel Computing
CSR-PSCE,SM:恢复感知并行计算
- 批准号:
0834514 - 财政年份:2008
- 资助金额:
$ 50万 - 项目类别:
Continuing Grant
CSR/AES: Enhancing Application Robustness via Adaptive and Cooperative Methods
CSR/AES:通过自适应和协作方法增强应用程序的稳健性
- 批准号:
0720549 - 财政年份:2007
- 资助金额:
$ 50万 - 项目类别:
Standard Grant
相似国自然基金
ALKBH5介导的SOCS3-m6A去甲基化修饰在颅脑损伤后小胶质细胞炎性激活中的调控作用及机制研究
- 批准号:82301557
- 批准年份:2023
- 资助金额:30 万元
- 项目类别:青年科学基金项目
miRNA前体小肽miPEP在葡萄低温胁迫抗性中的功能研究
- 批准号:
- 批准年份:2023
- 资助金额:50 万元
- 项目类别:
PKM2苏木化修饰调节非小细胞肺癌起始细胞介导的耐药生态位的机制研究
- 批准号:82372852
- 批准年份:2023
- 资助金额:49 万元
- 项目类别:面上项目
基于翻译组学理论探究LncRNA H19编码多肽PELRM促进小胶质细胞活化介导电针巨刺改善膝关节术后疼痛的机制研究
- 批准号:82305399
- 批准年份:2023
- 资助金额:30 万元
- 项目类别:青年科学基金项目
CLDN6高表达肿瘤细胞亚群在非小细胞肺癌ICB治疗抗性形成中的作用及机制研究
- 批准号:82373364
- 批准年份:2023
- 资助金额:49 万元
- 项目类别:面上项目
相似海外基金
SHF:Small:Intelligent Management of Hybrid Workloads for Extreme Scale Computing
SHF:Small:超大规模计算混合工作负载的智能管理
- 批准号:
2413597 - 财政年份:2023
- 资助金额:
$ 50万 - 项目类别:
Standard Grant
SHF:Small:RUI: Optimizing Compiler Instruction Scheduling Using GPU-Accelerated Intelligent Search
SHF:Small:RUI:使用 GPU 加速智能搜索优化编译器指令调度
- 批准号:
1911235 - 财政年份:2019
- 资助金额:
$ 50万 - 项目类别:
Standard Grant
SHF: Small: Science and Tools for Intelligent Developer Testing
SHF:小型:智能开发人员测试的科学和工具
- 批准号:
1816615 - 财政年份:2018
- 资助金额:
$ 50万 - 项目类别:
Standard Grant
SHF: Small: Asked and Answered: Intelligent Data Science for Software Projects
SHF:小型:询问和回答:软件项目的智能数据科学
- 批准号:
1618693 - 财政年份:2016
- 资助金额:
$ 50万 - 项目类别:
Standard Grant
SHF: Small: Asked and Answered: Intelligent Data Science for Software Projects
SHF:小型:询问和回答:软件项目的智能数据科学
- 批准号:
1649448 - 财政年份:2016
- 资助金额:
$ 50万 - 项目类别:
Standard Grant