CSR:Small:Failure-Aware Monitoring and Management of Online Availability and Performance for Dependable Computing Clusters
CSR:小:可靠计算集群的在线可用性和性能的故障感知监控和管理
基本信息
- 批准号:0915396
- 负责人:
- 金额:$ 18.51万
- 依托单位:
- 依托单位国家:美国
- 项目类别:Standard Grant
- 财政年份:2009
- 资助国家:美国
- 起止时间:2009-09-01 至 2012-08-31
- 项目状态:已结题
- 来源:
- 关键词:
项目摘要
CSR:Small:Failure-Aware Monitoring and Management of Online Availability and Performance for Dependable Computing ClustersAbstract:This award is funded under the American Recovery and Reinvestment Act of 2009 (Public Law 111-5).Computational clusters and clusters coalitions continue to grow in scale and in the complexity of their components and interactions. In these systems, component failures become norms instead of exceptions. Failure occurrence as well as its impact on system performance and operation costs is becoming an increasingly important concern to system designers and administrators. The success of petascale computing will depend on the ability to provide dependability at scale. Failure management and failure-aware resource management are crucial techniques for understanding emergent, system-wide phenomena and self-managing resource burdens.This project investigates a set of innovative techniques on failure-aware monitoring and management for system-level availability assurance. In this project, we will develop a framework along with mechanisms for failure-aware autonomic resource management in large clusters, quantify the temporal and spatial correlations among failure occurrences for proactive failure management, and devise resource allocation and reconfiguration approaches to deal with the system availability and productivity issues caused by component failures that occur frequently in modern large and complex clusters. Broader impacts of the project include the publication and dissemination of research results and developed software artifacts. The research enables collaborative research opportunities for students and faculty in the program, as well as undergraduate science and engineering students in New Mexico. Research-based materials about dependable high-performance computing will also be instilled into the undergraduate and graduate computer science and engineering curriculum.
CSR:小型:可靠计算集群的在线可用性和性能的故障感知监控和管理摘要:该奖项由 2009 年美国复苏和再投资法案(公法 111-5)资助。计算集群和集群联盟在规模及其组件和交互的复杂性。在这些系统中,组件故障成为常态而不是例外。故障的发生及其对系统性能和运营成本的影响正成为系统设计者和管理员越来越重要的关注点。千万亿级计算的成功将取决于提供大规模可靠性的能力。故障管理和故障感知资源管理是理解突发的、系统范围的现象和自我管理资源负担的关键技术。该项目研究了一套用于系统级可用性保证的故障感知监控和管理的创新技术。在这个项目中,我们将开发一个框架以及大型集群中故障感知自主资源管理的机制,量化故障发生之间的时间和空间相关性以进行主动故障管理,并设计资源分配和重新配置方法来处理系统可用性现代大型复杂集群中频繁发生的组件故障导致的生产力问题。该项目更广泛的影响包括研究成果和开发的软件工件的出版和传播。该研究为该项目的学生和教师以及新墨西哥州的本科科学和工程专业学生提供了合作研究机会。有关可靠高性能计算的研究材料也将被灌输到本科生和研究生计算机科学与工程课程中。
项目成果
期刊论文数量(0)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
数据更新时间:{{ journalArticles.updateTime }}
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
数据更新时间:{{ journalArticles.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ monograph.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ sciAawards.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ conferencePapers.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ patent.updateTime }}
Song Fu其他文献
ACTOR: Active Cloud Storage with Energy-Efficient On-Drive Data Processing
ACTOR:具有节能驱动器数据处理功能的主动云存储
- DOI:
10.1109/bigdata.2018.8621864 - 发表时间:
2018-12-01 - 期刊:
- 影响因子:0
- 作者:
Zhi Qiao;Shuwen Liang;N;ini Damera;ini;Song Fu;Hsing;M. Lang - 通讯作者:
M. Lang
Water fingering feature in low permeability reservoirs
低渗透油藏水指进特征
- DOI:
- 发表时间:
2024-09-14 - 期刊:
- 影响因子:7.5
- 作者:
Song Fu - 通讯作者:
Song Fu
Quantifying entity criticality for fault impact analysis and dependability enhancement in software-defined networks
量化软件定义网络中的故障影响分析和可靠性增强的实体关键性
- DOI:
10.1109/pccc.2016.7820628 - 发表时间:
2016-12-01 - 期刊:
- 影响因子:0
- 作者:
Song Huang;Zhiang Deng;Song Fu - 通讯作者:
Song Fu
Anomaly detection in large-scale coalition clusters for dependability assurance
大规模联盟集群中的异常检测以确保可靠性
- DOI:
10.1109/hipc.2010.5713169 - 发表时间:
2010-12-01 - 期刊:
- 影响因子:0
- 作者:
Qiang Guan;Derek Smith;Song Fu - 通讯作者:
Song Fu
Effects of different coated controlled-release urea on soil ammonia volatilization in farmland
不同包膜控释尿素对农田土壤氨挥发的影响
- DOI:
- 发表时间:
2024-09-14 - 期刊:
- 影响因子:0
- 作者:
Song Fu - 通讯作者:
Song Fu
Song Fu的其他文献
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
{{ truncateString('Song Fu', 18)}}的其他基金
IUCRC Phase I University of North Texas: Center for Electric, Connected and Autonomous Technologies for Mobility (eCAT)
IUCRC 第一阶段北德克萨斯大学:电动、互联和自主移动技术中心 (eCAT)
- 批准号:
2231519 - 财政年份:2023
- 资助金额:
$ 18.51万 - 项目类别:
Continuing Grant
IUCRC Planning Grant University of North Texas: Center for Electric, Connected and Autonomous Technologies for Mobility (eCAT)
IUCRC 规划拨款北德克萨斯大学:电动、互联和自主移动技术中心 (eCAT)
- 批准号:
2113805 - 财政年份:2021
- 资助金额:
$ 18.51万 - 项目类别:
Standard Grant
CyberTraining: Implementation: Small: Collaborative and Integrated Training on Connected and Autonomous Vehicles Cyber Infrastructure
网络培训:实施:小型:联网和自动驾驶车辆网络基础设施的协作和综合培训
- 批准号:
2017564 - 财政年份:2020
- 资助金额:
$ 18.51万 - 项目类别:
Standard Grant
CyberTraining: Implementation: Small: Collaborative and Integrated Training on Connected and Autonomous Vehicles Cyber Infrastructure
网络培训:实施:小型:联网和自动驾驶车辆网络基础设施的协作和综合培训
- 批准号:
2017564 - 财政年份:2020
- 资助金额:
$ 18.51万 - 项目类别:
Standard Grant
Collaborative Research: Enabling Machine Learning based Cooperative Perception with mmWave Communication for Autonomous Vehicle Safety
协作研究:通过毫米波通信实现基于机器学习的协作感知,以实现自动驾驶汽车安全
- 批准号:
2010332 - 财政年份:2020
- 资助金额:
$ 18.51万 - 项目类别:
Standard Grant
REU Site: Vehicular Edge Computing and Security: Research Experience for Undergraduates
REU 网站:车辆边缘计算和安全:本科生的研究经验
- 批准号:
1852134 - 财政年份:2019
- 资助金额:
$ 18.51万 - 项目类别:
Standard Grant
CSR: Medium: Collaborative Research: Wizard: Exploiting Disk Performance Signatures for Cost-Effective Management of Large-Scale Storage Systems
CSR:中:协作研究:向导:利用磁盘性能签名实现大规模存储系统的经济高效管理
- 批准号:
1563750 - 财政年份:2016
- 资助金额:
$ 18.51万 - 项目类别:
Standard Grant
相似国自然基金
ALKBH5介导的SOCS3-m6A去甲基化修饰在颅脑损伤后小胶质细胞炎性激活中的调控作用及机制研究
- 批准号:82301557
- 批准年份:2023
- 资助金额:30 万元
- 项目类别:青年科学基金项目
miRNA前体小肽miPEP在葡萄低温胁迫抗性中的功能研究
- 批准号:
- 批准年份:2023
- 资助金额:50 万元
- 项目类别:
PKM2苏木化修饰调节非小细胞肺癌起始细胞介导的耐药生态位的机制研究
- 批准号:82372852
- 批准年份:2023
- 资助金额:49 万元
- 项目类别:面上项目
基于翻译组学理论探究LncRNA H19编码多肽PELRM促进小胶质细胞活化介导电针巨刺改善膝关节术后疼痛的机制研究
- 批准号:82305399
- 批准年份:2023
- 资助金额:30 万元
- 项目类别:青年科学基金项目
CLDN6高表达肿瘤细胞亚群在非小细胞肺癌ICB治疗抗性形成中的作用及机制研究
- 批准号:82373364
- 批准年份:2023
- 资助金额:49 万元
- 项目类别:面上项目
相似海外基金
Small Molecule Degraders of Tryptophan 2,3-Dioxygenase Enzyme (TDO) as Novel Treatments for Neurodegenerative Disease
色氨酸 2,3-双加氧酶 (TDO) 的小分子降解剂作为神经退行性疾病的新疗法
- 批准号:
10752555 - 财政年份:2024
- 资助金额:
$ 18.51万 - 项目类别:
The role of BET proteins in pathological cardiac remodeling
BET蛋白在病理性心脏重塑中的作用
- 批准号:
10538142 - 财政年份:2023
- 资助金额:
$ 18.51万 - 项目类别:
Development of pHLIP-phosphoantigen conjugates for lymphoma therapy
开发用于淋巴瘤治疗的 pHLIP-磷酸抗原缀合物
- 批准号:
10646988 - 财政年份:2023
- 资助金额:
$ 18.51万 - 项目类别:
Novel pro-survival mechanisms of PIM2 in multiple myeloma
PIM2 在多发性骨髓瘤中的新的促生存机制
- 批准号:
10668651 - 财政年份:2023
- 资助金额:
$ 18.51万 - 项目类别:
Understanding resistance mechanisms to protein arginine methyltransransferase Inhibitors in Lymphoma
了解淋巴瘤对蛋白精氨酸甲基转移酶抑制剂的耐药机制
- 批准号:
10668754 - 财政年份:2023
- 资助金额:
$ 18.51万 - 项目类别: