CSR: Small: IRON: Reducing Workload Interference on Massively Parallel Platforms

CSR:小:IRON:减少大规模并行平台上的工作负载干扰

基本信息

  • 批准号:
    1717763
  • 负责人:
  • 金额:
    $ 49.72万
  • 依托单位:
  • 依托单位国家:
    美国
  • 项目类别:
    Standard Grant
  • 财政年份:
    2017
  • 资助国家:
    美国
  • 起止时间:
    2017-09-01 至 2022-08-31
  • 项目状态:
    已结题

项目摘要

Interconnection networks based on dragonfly and fat tree designs are becoming increasingly dominant in high-performance computing facilities and data centers. A key challenge of managing such networks is workload interference. In a multi-user computing environment, interference among applications for shared network resources can cause a vicious cycle of events (workload interference, low productivity, selfish user behavior, and poor scheduling) aggravating each other. This project seeks to tackle the vicious circle of workload interference.This project aims to develop a software framework to systematically analyze and mitigate workload interference on dragonfly and fat tree systems. Completion of the project will create novel interference-aware scheduling policies and scalable software tools for interference analysis and reduction on dragonfly and fat tree networks. The resulting data and tools collected from simulations and experiments will be made available to the broad community under an open source license. An integrated education and outreach plan will enhance the Computer Science curriculum, broaden the participation by underrepresented groups, and outreach to the surrounding communities that are predominantly African-American and Latino.The proposed research focuses on three inter-related research thrusts: (1) high-fidelity network simulation to gain insights into network interference among applications, (2) interference aware scheduling to avoid or mitigate network contention among applications, and (3) real-world experiments to quantitatively measure workload interference of representative applications on production systems and assess interference aware scheduling. The resulting IRON will provide an integrated interference analysis and reduction framework for advancing the research of workload interference on massively parallel platforms. The project website (http://www.cs.iit.edu/~lan/iron.html) provides all the information about the project (publications, software tools, data, etc.). This project repository will be maintained for at least five years after the project completion.
基于蜻蜓和胖树设计的互连网络在高性能计算设施和数据中心中日益占据主导地位。管理此类网络的一个关键挑战是工作负载干扰。在多用户计算环境中,应用程序之间对共享网络资源的干扰可能会导致事件的恶性循环(工作负载干扰、低生产率、自私的用户行为和糟糕的调度),并相互加剧。该项目旨在解决工作负载干扰的恶性循环。该项目旨在开发一个软件框架来系统地分析和减轻蜻蜓和胖树系统上的工作负载干扰。该项目的完成将创建新颖的干扰感知调度策略和可扩展的软件工具,用于分析和减少蜻蜓和胖树网络的干扰。从模拟和实验中收集的数据和工具将在开源许可下向广大社区提供。综合教育和推广计划将加强计算机科学课程,扩大代表性不足群体的参与,并推广到以非裔美国人和拉丁裔为主的周边社区。拟议的研究重点关注三个相互关联的研究重点:(1)高保真网络模拟,以深入了解应用程序之间的网络干扰,(2) 干扰感知调度,以避免或减轻应用程序之间的网络争用,以及 (3) 真实世界实验,以定量测量生产系统上代表性应用程序的工作负载干扰并评估干扰感知调度。由此产生的 IRON 将提供一个集成的干扰分析和减少框架,以推进大规模并行平台上工作负载干扰的研究。 项目网站(http://www.cs.iit.edu/~lan/iron.html)提供了有关该项目的所有信息(出版物、软件工具、数据等)。该项目存储库将在项目完成后至少维护五年。

项目成果

期刊论文数量(6)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
Union: An Automatic Workload Manager for Accelerating Network Simulation
Union:用于加速网络仿真的自动工作负载管理器
Trade-Off Study of Localizing Communication and Balancing Network Traffic on a Dragonfly System
Dragonfly 系统上本地化通信和平衡网络流量的权衡研究
  • DOI:
  • 发表时间:
    2018-05
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Wang, Xin;Mubarak, Misbah;Yang, Xu;Ross, Rob;Lan, Zhiling
  • 通讯作者:
    Lan, Zhiling
DRAS-CQSim: A reinforcement learning based framework for HPC cluster scheduling
DRAS-CQSim:基于强化学习的 HPC 集群调度框架
  • DOI:
    10.1016/j.simpa.2021.100077
  • 发表时间:
    2021-04
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Fan, Yuping;Lan, Zhiling
  • 通讯作者:
    Lan, Zhiling
Modeling and Analysis of Application Interference on Dragonfly+
Dragonfly应用干扰建模与分析
  • DOI:
  • 发表时间:
    2019-06
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Kang, Yao;Wang, Xin;McGlohon, Neil;Mubarak, Misbah;Chunduri, Sudheer;Lan, Zhiling
  • 通讯作者:
    Lan, Zhiling
Scheduling Beyond CPUs for HPC
超越 CPU 的 HPC 调度
{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ patent.updateTime }}

Zhiling Lan其他文献

Interpretable Modeling of Deep Reinforcement Learning Driven Scheduling
深度强化学习驱动调度的可解释建模
Surrogate Modeling for HPC Application Iteration Times Forecasting with Network Features
具有网络特征的 HPC 应用程序迭代时间预测的代理建模
  • DOI:
  • 发表时间:
    2024
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Xiongxiao Xu;Kevin A. Brown;Tanwi Mallick;Xin Wang;Elkin Cruz;Robert B. Ross;Christopher D. Carothers;Zhiling Lan;Kai Shu
  • 通讯作者:
    Kai Shu
Integrating Mamba and Transformer for Long-Short Range Time Series Forecasting
集成 Mamba 和 Transformer 进行长短期时间序列预测
  • DOI:
    10.48550/arxiv.2404.14757
  • 发表时间:
    2024-04-23
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Xiongxiao Xu;Yueqing Liang;Baixiang Huang;Zhiling Lan;Kai Shu
  • 通讯作者:
    Kai Shu
Evaluation of oral Lanzhou lamb rotavirus vaccine via passive transfusion with CD4(+)/CD8(+) T lymphocytes.
CD4( )/CD8( ) T淋巴细胞被动输注兰州羔羊轮状病毒口服疫苗的评价
  • DOI:
  • 发表时间:
    2016
  • 期刊:
  • 影响因子:
    5
  • 作者:
    Jialiang Du;Zhiling Lan;Yueshuai Liu;Yan Liu;Qingchuan Yu;Yanchao Li;T. Guo
  • 通讯作者:
    T. Guo
Inhalation Study of Mycobacteriophage D29 Aerosol for Mice by Endotracheal Route and Nose-Only Exposure.
通过气管内途径和仅鼻子暴露对小鼠分枝杆菌噬菌体 D29 气雾剂的吸入研究。

Zhiling Lan的其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

{{ truncateString('Zhiling Lan', 18)}}的其他基金

SHF:Small:Intelligent Management of Hybrid Workloads for Extreme Scale Computing
SHF:Small:超大规模计算混合工作负载的智能管理
  • 批准号:
    2413597
  • 财政年份:
    2023
  • 资助金额:
    $ 49.72万
  • 项目类别:
    Standard Grant
Collaborative Research: PPoSS: Planning: SEEr: A Scalable, Energy Efficient HPC Environment for AI-Enabled Science
合作研究:PPoSS:规划:SEEr:面向人工智能科学的可扩展、节能的 HPC 环境
  • 批准号:
    2119294
  • 财政年份:
    2021
  • 资助金额:
    $ 49.72万
  • 项目类别:
    Standard Grant
SHF:Small:Intelligent Management of Hybrid Workloads for Extreme Scale Computing
SHF:Small:超大规模计算混合工作负载的智能管理
  • 批准号:
    2109316
  • 财政年份:
    2021
  • 资助金额:
    $ 49.72万
  • 项目类别:
    Standard Grant
SHF: Small: Collaborative Research: Experimental-based Research on Effective Models of Parallel Application Execution Time, Power, and Resilience
SHF:小型:协作研究:基于实验的并行应用程序执行时间、功耗和弹性有效模型的研究
  • 批准号:
    1618776
  • 财政年份:
    2016
  • 资助金额:
    $ 49.72万
  • 项目类别:
    Standard Grant
SHF: CSR: Small: Toward Smart HPC through Active Learning and Intelligent Scheduling
SHF:CSR:小型:通过主动学习和智能调度迈向智能 HPC
  • 批准号:
    1422009
  • 财政年份:
    2014
  • 资助金额:
    $ 49.72万
  • 项目类别:
    Standard Grant
SHF: CSR: Small: A Cooperative Framework for Topology Awareness on Large-Scale Systems
SHF:CSR:小型:大型系统拓扑意识的合作框架
  • 批准号:
    1320125
  • 财政年份:
    2013
  • 资助金额:
    $ 49.72万
  • 项目类别:
    Standard Grant
Collaborative Research: Towards Petascale Cosmological Simulations
合作研究:迈向千万亿次宇宙学模拟
  • 批准号:
    0904670
  • 财政年份:
    2009
  • 资助金额:
    $ 49.72万
  • 项目类别:
    Standard Grant
CSR-PSCE,SM: Recovery Aware Parallel Computing
CSR-PSCE,SM:恢复感知并行计算
  • 批准号:
    0834514
  • 财政年份:
    2008
  • 资助金额:
    $ 49.72万
  • 项目类别:
    Continuing Grant
CSR/AES: Enhancing Application Robustness via Adaptive and Cooperative Methods
CSR/AES:通过自适应和协作方法增强应用程序的稳健性
  • 批准号:
    0720549
  • 财政年份:
    2007
  • 资助金额:
    $ 49.72万
  • 项目类别:
    Standard Grant

相似国自然基金

莪术烯抑制HSP90α进而诱导非小细胞肺癌细胞发生铁死亡的分子机制研究
  • 批准号:
    82304787
  • 批准年份:
    2023
  • 资助金额:
    30 万元
  • 项目类别:
    青年科学基金项目
基于铁螯合和群体感应双效生物膜抑制剂的小分子探针研究及靶标确证
  • 批准号:
    82304274
  • 批准年份:
    2023
  • 资助金额:
    30 万元
  • 项目类别:
    青年科学基金项目
正得康阻断FoxM1-PCK2-AMPK促进铁死亡抑制非小细胞肺癌转移的机制研究
  • 批准号:
    82374532
  • 批准年份:
    2023
  • 资助金额:
    48 万元
  • 项目类别:
    面上项目
CircFBXO7编码小肽调控合并糖尿病的下肢动脉硬化闭塞症血管内皮细胞铁死亡的机制探索
  • 批准号:
    82300554
  • 批准年份:
    2023
  • 资助金额:
    30 万元
  • 项目类别:
    青年科学基金项目
小胶质细胞外泌体通过miR-486抑制神经元铁死亡介导电针修复脊髓损伤的机制研究
  • 批准号:
    82360454
  • 批准年份:
    2023
  • 资助金额:
    32 万元
  • 项目类别:
    地区科学基金项目

相似海外基金

Improving Diagnosis in Gastrointestinal Cancer: Integrating Prediction Models into Routine Clinical Care
改善胃肠癌的诊断:将预测模型纳入常规临床护理
  • 批准号:
    10641060
  • 财政年份:
    2023
  • 资助金额:
    $ 49.72万
  • 项目类别:
RestEaze: A Novel Wearable Device and Mobile Application to Improve the Diagnosis and Management of Restless Legs Syndrome in Pediatric Patients with Attention Deficit/Hyperactivity Disorder
RestEaze:一种新型可穿戴设备和移动应用程序,可改善注意力缺陷/多动症儿科患者不宁腿综合症的诊断和管理
  • 批准号:
    10760442
  • 财政年份:
    2023
  • 资助金额:
    $ 49.72万
  • 项目类别:
First-in-Human Imaging of Innate Immunity Activation with a Redox-Tuned PET Reporter
使用氧化还原调谐 PET 报告基因首次对人体进行先天免疫激活成像
  • 批准号:
    10577531
  • 财政年份:
    2023
  • 资助金额:
    $ 49.72万
  • 项目类别:
Redox manipulation of iron to improve glioblastoma therapy: A phase 1 trial
铁的氧化还原操作可改善胶质母细胞瘤治疗:1 期试验
  • 批准号:
    10651509
  • 财政年份:
    2023
  • 资助金额:
    $ 49.72万
  • 项目类别:
Alveolar Macrophage Iron Overload in COPD Pathogenesis
肺泡巨噬细胞铁过载在慢性阻塞性肺病发病机制中的作用
  • 批准号:
    10740293
  • 财政年份:
    2023
  • 资助金额:
    $ 49.72万
  • 项目类别:
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了