SHF: CSR: Small: Toward Smart HPC through Active Learning and Intelligent Scheduling

SHF:CSR:小型:通过主动学习和智能调度迈向智能 HPC

基本信息

  • 批准号:
    1422009
  • 负责人:
  • 金额:
    $ 49.88万
  • 依托单位:
  • 依托单位国家:
    美国
  • 项目类别:
    Standard Grant
  • 财政年份:
    2014
  • 资助国家:
    美国
  • 起止时间:
    2014-08-15 至 2019-07-31
  • 项目状态:
    已结题

项目摘要

As high performance computing (HPC) continues to grow in scale, energy and resilience become first-class concerns, in addition to the pursuit of performance. These concerns demand significant changes in many aspects of the system stack including resource management and job scheduling. In order to harness the great potential of extreme scale systems, this project aims to incorporate intelligence into resource management and job scheduling. More specifically, it will develop a framework named SPEaR (Scheduling for Performance, Energy, and Resilience efficiency) for dynamically optimizing the three-dimensional performance, energy, and resilience scheduling. The research focuses on two thrusts: one is active learning to automatically extract valuable performance, energy, and resilience patterns and tradeoffs out of application and system data, and the other is intelligent scheduling to improve and control performance, resilience, and energy efficiency in resource management and scheduling. An event-driven scheduling simulator is being developed for comprehensively evaluating scheduling policies and their aggregate effects. The simulator, along with system logs, will be made available to the broad community under an open source license. This project creates critical technologies to promote system productivity and makes important advances essential toward smart HPC. Additionally, the learning techniques developed in this project are useful to other big data problems of national interests. The education plan enhances the undergraduate and graduate curricula and broadens the participation from underrepresented groups.
随着高性能计算 (HPC) 规模的不断增长,除了对性能的追求之外,能源和弹性也成为首要关注的问题。这些问题需要对系统堆栈的许多方面进行重大更改,包括资源管理和作业调度。为了发挥超大规模系统的巨大潜力,该项目旨在将智能融入资源管理和作业调度中。更具体地说,它将开发一个名为 SPEaR(性能、能源和弹性效率调度)的框架,用于动态优化三维性能、能源和弹性调度。该研究重点关注两个重点:一是主动学习,从应用程序和系统数据中自动提取有价值的性能、能源和弹性模式和权衡;二是智能调度,以提高和控制资源的性能、弹性和能源效率。管理和调度。正在开发事件驱动的调度模拟器,用于综合评估调度策略及其总体效果。该模拟器以及系统日志将在开源许可下向广大社区开放。该项目创建了提高系统生产力的关键技术,并为智能 HPC 取得了至关重要的重要进步。此外,该项目中开发的学习技术对于国家利益的其他大数据问题也很有用。该教育计划加强了本科生和研究生课程,并扩大了代表性不足群体的参与。

项目成果

期刊论文数量(2)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
The Effect of System Utilization on Application Performance Variability
系统利用率对应用程序性能变化的影响
  • DOI:
  • 发表时间:
    2019-06
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Li, Boyang;Chunduri, Sudheer;Harms, Kevin;Fan, Yuping;Lan, Zhiling
  • 通讯作者:
    Lan, Zhiling
Modeling and Analysis of Application Interference on Dragonfly+
Dragonfly应用干扰建模与分析
  • DOI:
  • 发表时间:
    2019-06
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Kang, Yao;Wang, Xin;McGlohon, Neil;Mubarak, Misbah;Chunduri, Sudheer;Lan, Zhiling
  • 通讯作者:
    Lan, Zhiling
{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ patent.updateTime }}

Zhiling Lan其他文献

Interpretable Modeling of Deep Reinforcement Learning Driven Scheduling
深度强化学习驱动调度的可解释建模
Surrogate Modeling for HPC Application Iteration Times Forecasting with Network Features
具有网络特征的 HPC 应用程序迭代时间预测的代理建模
  • DOI:
  • 发表时间:
    2024
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Xiongxiao Xu;Kevin A. Brown;Tanwi Mallick;Xin Wang;Elkin Cruz;Robert B. Ross;Christopher D. Carothers;Zhiling Lan;Kai Shu
  • 通讯作者:
    Kai Shu
Integrating Mamba and Transformer for Long-Short Range Time Series Forecasting
集成 Mamba 和 Transformer 进行长短期时间序列预测
  • DOI:
    10.48550/arxiv.2404.14757
  • 发表时间:
    2024-04-23
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Xiongxiao Xu;Yueqing Liang;Baixiang Huang;Zhiling Lan;Kai Shu
  • 通讯作者:
    Kai Shu
Evaluation of oral Lanzhou lamb rotavirus vaccine via passive transfusion with CD4(+)/CD8(+) T lymphocytes.
CD4( )/CD8( ) T淋巴细胞被动输注兰州羔羊轮状病毒口服疫苗的评价
  • DOI:
  • 发表时间:
    2016
  • 期刊:
  • 影响因子:
    5
  • 作者:
    Jialiang Du;Zhiling Lan;Yueshuai Liu;Yan Liu;Qingchuan Yu;Yanchao Li;T. Guo
  • 通讯作者:
    T. Guo
Inhalation Study of Mycobacteriophage D29 Aerosol for Mice by Endotracheal Route and Nose-Only Exposure.
通过气管内途径和仅鼻子暴露对小鼠分枝杆菌噬菌体 D29 气雾剂的吸入研究。

Zhiling Lan的其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

{{ truncateString('Zhiling Lan', 18)}}的其他基金

SHF:Small:Intelligent Management of Hybrid Workloads for Extreme Scale Computing
SHF:Small:超大规模计算混合工作负载的智能管理
  • 批准号:
    2413597
  • 财政年份:
    2023
  • 资助金额:
    $ 49.88万
  • 项目类别:
    Standard Grant
Collaborative Research: PPoSS: Planning: SEEr: A Scalable, Energy Efficient HPC Environment for AI-Enabled Science
合作研究:PPoSS:规划:SEEr:面向人工智能科学的可扩展、节能的 HPC 环境
  • 批准号:
    2119294
  • 财政年份:
    2021
  • 资助金额:
    $ 49.88万
  • 项目类别:
    Standard Grant
SHF:Small:Intelligent Management of Hybrid Workloads for Extreme Scale Computing
SHF:Small:超大规模计算混合工作负载的智能管理
  • 批准号:
    2109316
  • 财政年份:
    2021
  • 资助金额:
    $ 49.88万
  • 项目类别:
    Standard Grant
CSR: Small: IRON: Reducing Workload Interference on Massively Parallel Platforms
CSR:小:IRON:减少大规模并行平台上的工作负载干扰
  • 批准号:
    1717763
  • 财政年份:
    2017
  • 资助金额:
    $ 49.88万
  • 项目类别:
    Standard Grant
SHF: Small: Collaborative Research: Experimental-based Research on Effective Models of Parallel Application Execution Time, Power, and Resilience
SHF:小型:协作研究:基于实验的并行应用程序执行时间、功耗和弹性有效模型的研究
  • 批准号:
    1618776
  • 财政年份:
    2016
  • 资助金额:
    $ 49.88万
  • 项目类别:
    Standard Grant
SHF: CSR: Small: A Cooperative Framework for Topology Awareness on Large-Scale Systems
SHF:CSR:小型:大型系统拓扑意识的合作框架
  • 批准号:
    1320125
  • 财政年份:
    2013
  • 资助金额:
    $ 49.88万
  • 项目类别:
    Standard Grant
Collaborative Research: Towards Petascale Cosmological Simulations
合作研究:迈向千万亿次宇宙学模拟
  • 批准号:
    0904670
  • 财政年份:
    2009
  • 资助金额:
    $ 49.88万
  • 项目类别:
    Standard Grant
CSR-PSCE,SM: Recovery Aware Parallel Computing
CSR-PSCE,SM:恢复感知并行计算
  • 批准号:
    0834514
  • 财政年份:
    2008
  • 资助金额:
    $ 49.88万
  • 项目类别:
    Continuing Grant
CSR/AES: Enhancing Application Robustness via Adaptive and Cooperative Methods
CSR/AES:通过自适应和协作方法增强应用程序的稳健性
  • 批准号:
    0720549
  • 财政年份:
    2007
  • 资助金额:
    $ 49.88万
  • 项目类别:
    Standard Grant

相似国自然基金

准社会互动视角下CSR数字化沟通对品牌绩效的差异化影响、机制与管理对策
  • 批准号:
    72362008
  • 批准年份:
    2023
  • 资助金额:
    28 万元
  • 项目类别:
    地区科学基金项目
信号理论视角下的企业社会责任逆向解耦策略研究
  • 批准号:
  • 批准年份:
    2022
  • 资助金额:
    30 万元
  • 项目类别:
    青年科学基金项目
“双碳”目标视域下企业社会责任对碳排放的作用机理、实现路径与行为演化研究
  • 批准号:
  • 批准年份:
    2022
  • 资助金额:
    45 万元
  • 项目类别:
    面上项目
平台型企业社会责任行为内在驱动机制与能力构建研究
  • 批准号:
  • 批准年份:
    2022
  • 资助金额:
    30 万元
  • 项目类别:
    青年科学基金项目
共同富裕目标下企业社会责任的实现路径及绩效研究
  • 批准号:
    72272171
  • 批准年份:
    2022
  • 资助金额:
    45 万元
  • 项目类别:
    面上项目

相似海外基金

SHF:CSR:Small: Perpetuum Mobile: Orchestrating the Provisioning of Pervasive Resources for Emerging Mobile Applications
SHF:CSR:Small:Perpetuum Mobile:为新兴移动应用程序协调普遍资源的配置
  • 批准号:
    1717065
  • 财政年份:
    2017
  • 资助金额:
    $ 49.88万
  • 项目类别:
    Standard Grant
SHF: CSR: Small: CAD for THz lateral SiGe HBT on SOI to address Amdahl's Law
SHF:CSR:小型:SOI 上太赫兹横向 SiGe HBT 的 CAD,以解决阿姆达尔定律
  • 批准号:
    1618143
  • 财政年份:
    2016
  • 资助金额:
    $ 49.88万
  • 项目类别:
    Standard Grant
CSR: SHF: Small: Programming Language, Runtime System, and Architecture Support for Reliability in Intermittent, Energy-Harvesting Computing Devices
CSR:SHF:小型:间歇性能量收集计算设备可靠性的编程语言、运行时系统和架构支持
  • 批准号:
    1526342
  • 财政年份:
    2015
  • 资助金额:
    $ 49.88万
  • 项目类别:
    Standard Grant
SHF: CSR: Small: A Cooperative Framework for Topology Awareness on Large-Scale Systems
SHF:CSR:小型:大型系统拓扑意识的合作框架
  • 批准号:
    1320125
  • 财政年份:
    2013
  • 资助金额:
    $ 49.88万
  • 项目类别:
    Standard Grant
SHF:CSR:Small:Improving Processor Efficiency with Prediction
SHF:CSR:Small:通过预测提高处理器效率
  • 批准号:
    1332598
  • 财政年份:
    2013
  • 资助金额:
    $ 49.88万
  • 项目类别:
    Standard Grant
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了