CSR/AES: Enhancing Application Robustness via Adaptive and Cooperative Methods
CSR/AES:通过自适应和协作方法增强应用程序的稳健性
基本信息
- 批准号:0720549
- 负责人:
- 金额:--
- 依托单位:
- 依托单位国家:美国
- 项目类别:Standard Grant
- 财政年份:2007
- 资助国家:美国
- 起止时间:2007-08-01 至 2011-07-31
- 项目状态:已结题
- 来源:
- 关键词:
项目摘要
As the scale of high performance computing continues to grow, application robustness becomes increasingly important. Checkpointing is the conventional method for fault tolerance. However, it only deals with failures after their occurrence through rollback. In case of one process failure, all processes including non-faulty processes have to be restarted from the previously saved state prior to the failure. Thus, significant performance loss can be incurred due to the work loss and failure recovery. Proactive approaches take preventive actions (e.g. preemptive process migration) before failures, thereby avoiding failures with low cost. Nevertheless, its effectiveness relies on perfect fault prediction, which is hardly achievable in practice. This project investigates a new approach called adaptive fault management by intelligently integrating proactive and reactive robustness techniques such that it will enable applications to avoid anticipated faults if possible, and in the case of unforeseeable faults, to tolerate these faults in such a way that their impact is kept to a minimum. The project consists of three major components: (1) cooperative anomaly diagnosis (CAD) to improve fault prediction in large-scale systems by developing meta-learning methods; (2) adaptive control manager (ACM) to allow runtime decision making in response to imperfect fault prediction; and (3) integrated runtime support (IRS) to enable cost-effective coordination of fault handing techniques at runtime. The resulting framework will enhance robustness of high performance computing applications by improving their performance in the presence of failures. This project also enhances the systems-area curriculum at Illinois Institute of Technology and helps train the future-generation scientific computing workforce.
随着高性能计算规模的不断增长,应用程序的稳健性变得越来越重要。检查点是传统的容错方法。然而,它仅在故障发生后通过回滚来处理故障。如果一个进程发生故障,包括非故障进程在内的所有进程都必须从故障之前保存的状态重新启动。因此,由于工作损失和故障恢复,可能会导致显着的性能损失。主动方法在发生故障之前采取预防措施(例如抢占式进程迁移),从而以低成本避免故障。 然而,其有效性依赖于完美的故障预测,而这在实践中很难实现。该项目研究了一种称为自适应故障管理的新方法,通过智能地集成主动和被动鲁棒性技术,使应用程序能够尽可能避免预期的故障,并在出现不可预见的故障时,以一定的方式容忍这些故障,使其影响保持在最低限度。该项目由三个主要部分组成:(1)协作异常诊断(CAD),通过开发元学习方法来改进大规模系统的故障预测; (2) 自适应控制管理器 (ACM),允许针对不完美的故障预测做出运行时决策; (3) 集成运行时支持 (IRS),以实现运行时故障处理技术的经济有效的协调。由此产生的框架将通过提高高性能计算应用程序在出现故障时的性能来增强其稳健性。 该项目还增强了伊利诺伊理工学院的系统领域课程,并帮助培训未来一代的科学计算劳动力。
项目成果
期刊论文数量(0)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
数据更新时间:{{ journalArticles.updateTime }}
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
数据更新时间:{{ journalArticles.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ monograph.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ sciAawards.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ conferencePapers.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ patent.updateTime }}
Zhiling Lan其他文献
Interpretable Modeling of Deep Reinforcement Learning Driven Scheduling
深度强化学习驱动调度的可解释建模
- DOI:
10.1109/mascots59514.2023.10387651 - 发表时间:
2023-10-16 - 期刊:
- 影响因子:0
- 作者:
Boyang Li;Zhiling Lan;M. Papka - 通讯作者:
M. Papka
Integrating Mamba and Transformer for Long-Short Range Time Series Forecasting
集成 Mamba 和 Transformer 进行长短期时间序列预测
- DOI:
10.48550/arxiv.2404.14757 - 发表时间:
2024-04-23 - 期刊:
- 影响因子:0
- 作者:
Xiongxiao Xu;Yueqing Liang;Baixiang Huang;Zhiling Lan;Kai Shu - 通讯作者:
Kai Shu
Surrogate Modeling for HPC Application Iteration Times Forecasting with Network Features
具有网络特征的 HPC 应用程序迭代时间预测的代理建模
- DOI:
- 发表时间:
2024 - 期刊:
- 影响因子:0
- 作者:
Xiongxiao Xu;Kevin A. Brown;Tanwi Mallick;Xin Wang;Elkin Cruz;Robert B. Ross;Christopher D. Carothers;Zhiling Lan;Kai Shu - 通讯作者:
Kai Shu
Evaluation of oral Lanzhou lamb rotavirus vaccine via passive transfusion with CD4(+)/CD8(+) T lymphocytes.
CD4( )/CD8( ) T淋巴细胞被动输注兰州羔羊轮状病毒口服疫苗的评价
- DOI:
- 发表时间:
2016 - 期刊:
- 影响因子:5
- 作者:
Jialiang Du;Zhiling Lan;Yueshuai Liu;Yan Liu;Qingchuan Yu;Yanchao Li;T. Guo - 通讯作者:
T. Guo
Inhalation Study of Mycobacteriophage D29 Aerosol for Mice by Endotracheal Route and Nose-Only Exposure.
通过气管内途径和仅鼻子暴露对小鼠分枝杆菌噬菌体 D29 气雾剂的吸入研究。
- DOI:
10.1089/jamp.2015.1233 - 发表时间:
2016-10-01 - 期刊:
- 影响因子:0
- 作者:
Ke;Wenhui Yang;Xiao;L. Cong;Na Li;Yun Li;Zhan;Zhe Yin;Zhiling Lan - 通讯作者:
Zhiling Lan
Zhiling Lan的其他文献
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
{{ truncateString('Zhiling Lan', 18)}}的其他基金
SHF:Small:Intelligent Management of Hybrid Workloads for Extreme Scale Computing
SHF:Small:超大规模计算混合工作负载的智能管理
- 批准号:
2413597 - 财政年份:2023
- 资助金额:
-- - 项目类别:
Standard Grant
Collaborative Research: PPoSS: Planning: SEEr: A Scalable, Energy Efficient HPC Environment for AI-Enabled Science
合作研究:PPoSS:规划:SEEr:面向人工智能科学的可扩展、节能的 HPC 环境
- 批准号:
2119294 - 财政年份:2021
- 资助金额:
-- - 项目类别:
Standard Grant
SHF:Small:Intelligent Management of Hybrid Workloads for Extreme Scale Computing
SHF:Small:超大规模计算混合工作负载的智能管理
- 批准号:
2109316 - 财政年份:2021
- 资助金额:
-- - 项目类别:
Standard Grant
CSR: Small: IRON: Reducing Workload Interference on Massively Parallel Platforms
CSR:小:IRON:减少大规模并行平台上的工作负载干扰
- 批准号:
1717763 - 财政年份:2017
- 资助金额:
-- - 项目类别:
Standard Grant
SHF: Small: Collaborative Research: Experimental-based Research on Effective Models of Parallel Application Execution Time, Power, and Resilience
SHF:小型:协作研究:基于实验的并行应用程序执行时间、功耗和弹性有效模型的研究
- 批准号:
1618776 - 财政年份:2016
- 资助金额:
-- - 项目类别:
Standard Grant
SHF: CSR: Small: Toward Smart HPC through Active Learning and Intelligent Scheduling
SHF:CSR:小型:通过主动学习和智能调度迈向智能 HPC
- 批准号:
1422009 - 财政年份:2014
- 资助金额:
-- - 项目类别:
Standard Grant
SHF: CSR: Small: A Cooperative Framework for Topology Awareness on Large-Scale Systems
SHF:CSR:小型:大型系统拓扑意识的合作框架
- 批准号:
1320125 - 财政年份:2013
- 资助金额:
-- - 项目类别:
Standard Grant
Collaborative Research: Towards Petascale Cosmological Simulations
合作研究:迈向千万亿次宇宙学模拟
- 批准号:
0904670 - 财政年份:2009
- 资助金额:
-- - 项目类别:
Standard Grant
CSR-PSCE,SM: Recovery Aware Parallel Computing
CSR-PSCE,SM:恢复感知并行计算
- 批准号:
0834514 - 财政年份:2008
- 资助金额:
-- - 项目类别:
Continuing Grant
相似国自然基金
土壤-果蔬中重金属元素的微型液体阴极辉光放电光谱信号增强机理与高精度检测研究
- 批准号:21864022
- 批准年份:2018
- 资助金额:40.0 万元
- 项目类别:地区科学基金项目
CK1δ/ε介导的AES的降解调控结直肠癌转移和干性的机制研究
- 批准号:31870754
- 批准年份:2018
- 资助金额:59.0 万元
- 项目类别:面上项目
面向AES密钥扩展的抗功耗攻击掩码技术研究
- 批准号:61602239
- 批准年份:2016
- 资助金额:21.0 万元
- 项目类别:青年科学基金项目
液相阴极辉光放电原子发射光谱快速检测水中重金属元素的方法研究
- 批准号:21567025
- 批准年份:2015
- 资助金额:42.0 万元
- 项目类别:地区科学基金项目
具有自主产权的安诚嵌入式处理器上支持AES及GF(2^n)运算的指令扩展结构研究
- 批准号:61373141
- 批准年份:2013
- 资助金额:79.0 万元
- 项目类别:面上项目
相似海外基金
Laser Ablation ICP Atomic Emission Spectrometry (LA-ICP-AES) for in situ microanalysis
用于原位微量分析的激光烧蚀 ICP 原子发射光谱法 (LA-ICP-AES)
- 批准号:
464364655 - 财政年份:2021
- 资助金额:
-- - 项目类别:
Major Research Instrumentation
Urgent replacement of an ICP-AES for the measurement of trace metals in environmental samples
紧急更换 ICP-AES 来测量环境样品中的痕量金属
- 批准号:
RTI-2022-00119 - 财政年份:2021
- 资助金额:
-- - 项目类别:
Research Tools and Instruments
Urgent replacement of an ICP-AES for the measurement of trace metals in environmental samples
紧急更换 ICP-AES 来测量环境样品中的痕量金属
- 批准号:
RTI-2022-00119 - 财政年份:2021
- 资助金额:
-- - 项目类别:
Research Tools and Instruments
暗号技術に対する機械学習や深層学習を用いた安全性評価のための攻撃手法の提案
针对密码技术利用机器学习和深度学习进行安全评估的攻击方法的提出
- 批准号:
21K11890 - 财政年份:2021
- 资助金额:
-- - 项目类别:
Grant-in-Aid for Scientific Research (C)
代数学を用いた暗号、符号、擬似乱数のための離散数学研究
使用代数进行密码学、代码和伪随机数的离散数学研究
- 批准号:
20K03713 - 财政年份:2020
- 资助金额:
-- - 项目类别:
Grant-in-Aid for Scientific Research (C)