Collaborative Research: CSR-SMA+AES: Pro-Active Runtime Health Enhancement of Large-Scale Parallel Systems Using PROGNOSIS

合作研究:CSR-SMA AES:使用 PROGNOSIS 主动增强大规模并行系统的运行时健康状况

基本信息

  • 批准号:
    0614976
  • 负责人:
  • 金额:
    $ 23.8万
  • 依托单位:
  • 依托单位国家:
    美国
  • 项目类别:
    Continuing Grant
  • 财政年份:
    2006
  • 资助国家:
    美国
  • 起止时间:
    2006-08-15 至 2010-07-31
  • 项目状态:
    已结题

项目摘要

Large scale parallel systems are critical to take on the challenges imposed by highly demanding applications of critical importance. Pushing the limits of hardware and software technologies to extract the maximum performance can increase their susceptibility to failures. This arises as a consequence of growing hardware transient errors, hardware device failures, and software complexity. These failures can have substantial consequences on system performance, and add to the costs of maintenance/operation, thereby putting at risk the very motivation behind deploying these large scale systems. Rather than treat failures as an exception and takereactive remedies, this project intends to anticipate their occurrence and take pro-active runtime measures to hide their impact.This research is expected to make three broad contributions towardsdeveloping a runtime fault-tolerance infrastructure.The first set of contributions is on collecting and analyzingsystem events from an actual BlueGene/L system over anextended period of time. The second set of contributions are models foronline analysis and prediction of evolving failure data.The third set of contributions are on failure-aware parallel job scheduling and checkpointing. On the educational front, in addition to enhancing graduate curriculum and research, this project intends to involve undergraduate students and women. The tools developed in this project and the related results will be made available in public domain and published in leading journals/conferences. In addition, the PIs will also push these tools to be incorporated on actual systems, to enhance their fault-toleranceabilities.
大规模平行系统对于应对至关重要的高度要求应用所面临的挑战至关重要。推动硬件和软件技术的限制提取最高性能可以提高其失败的敏感性。这是由于硬件瞬态错误,硬件设备故障和软件复杂性而引起的。 这些故障可能会对系统性能产生重大影响,并增加维护/操作的成本,从而使他们处于部署这些大规模系统背后的动力。该项目并没有将失败视为例外和交管反应疗法,而是要预测其发生并采取积极主动的运行时措施来隐藏其影响。这项研究有望为开发运行时耐受竞争力基础架构提供三个广泛的贡献。对收集和分析实际蓝色系统的第一组贡献是针对蓝色系统的首次贡献。第二组贡献是模型的Foronline分析和对不断发展的故障数据的预测。第三组贡献是在失败感知的并行作业计划和检查点上。在教育方面,除了增强研究生课程和研究外,该项目还打算让本科生和女性参与。该项目中开发的工具和相关结果将在公共领域提供,并在领先的期刊/会议上发布。此外,PI还将推动这些工具将其纳入实际系统,以增强其断层耐受性。

项目成果

期刊论文数量(0)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ patent.updateTime }}

Yanyong Zhang其他文献

BiFocus: using radio-optical beacons for an augmented reality search application
BiFocus:使用无线电光学信标进行增强现实搜索应用
  • DOI:
    10.1145/2462456.2465706
  • 发表时间:
    2013
  • 期刊:
  • 影响因子:
    4.9
  • 作者:
    A. Ashok;Chenren Xu;Tam N. Vu;M. Gruteser;R. Howard;Yanyong Zhang;N. Mandayam;Wenjia Yuan;Kristin J. Dana
  • 通讯作者:
    Kristin J. Dana
On the Cache-and-Forward Network Architecture
浅谈缓存转发网络架构
A Model of Passive Human Motion Recognition Using Two-Layer Wireless Links
使用两层无线链路的被动人体运动识别模型
LDP: A Local Diffusion Planner for Efficient Robot Navigation and Collision Avoidance
LDP:用于高效机器人导航和避免碰撞的局部扩散规划器
  • DOI:
  • 发表时间:
    2024
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Wenhao Yu;Jie Peng;Huanyu Yang;Junrui Zhang;Yifan Duan;Jianmin Ji;Yanyong Zhang
  • 通讯作者:
    Yanyong Zhang
The Boomerang Protocol: Tieing Data to Geographic Locations in Mobile Disconnected Networks
Boomerang 协议:将数据与移动断开网络中的地理位置联系起来

Yanyong Zhang的其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

{{ truncateString('Yanyong Zhang', 18)}}的其他基金

NeTS: Small: Transmit Only: Green Communication for Dense Wireless Systems
NeTS:小型:仅传输:密集无线系统的绿色通信
  • 批准号:
    1423020
  • 财政年份:
    2014
  • 资助金额:
    $ 23.8万
  • 项目类别:
    Standard Grant
CT - ISG: ROME: Robust Measurement in Sensor Networks
CT - ISG:ROME:传感器网络中的稳健测量
  • 批准号:
    0831186
  • 财政年份:
    2008
  • 资助金额:
    $ 23.8万
  • 项目类别:
    Standard Grant
CAREER: PROSE: Providing Robustness in Systems of Embedded Sensors
职业:PROSE:为嵌入式传感器系统提供鲁棒性
  • 批准号:
    0546072
  • 财政年份:
    2006
  • 资助金额:
    $ 23.8万
  • 项目类别:
    Continuing Grant
Collaborative Research: CSR---SMA+AES: PROGNOSIS to Enhance the Runtime Health of Large Scale Parallel Systems
合作研究:CSR---SMA AES:增强大规模并行系统运行时健康状况的预测
  • 批准号:
    0509164
  • 财政年份:
    2005
  • 资助金额:
    $ 23.8万
  • 项目类别:
    Standard Grant

相似国自然基金

善行得善果?后疫情时代嵌入式和边缘式CSR对员工幸福感的跨层影响研究
  • 批准号:
    72102183
  • 批准年份:
    2021
  • 资助金额:
    24.00 万元
  • 项目类别:
    青年科学基金项目
善行得善果?后疫情时代嵌入式和边缘式CSR对员工幸福感的跨层影响研究
  • 批准号:
  • 批准年份:
    2021
  • 资助金额:
    30 万元
  • 项目类别:
基于脊髓突触可塑性探讨“调气”电针远端腧穴干预CSR模型大鼠的中枢镇痛效应及机制研究
  • 批准号:
    82160934
  • 批准年份:
    2021
  • 资助金额:
    34 万元
  • 项目类别:
    地区科学基金项目
利用输运模型和机器学习方法研究CSR能区的低温高密核物质
  • 批准号:
  • 批准年份:
    2020
  • 资助金额:
    50 万元
  • 项目类别:
    联合基金项目
基于兰州HIRFL-CSR装置对轻原子核的团簇结构及晕结构的理论研究
  • 批准号:
  • 批准年份:
    2020
  • 资助金额:
    60 万元
  • 项目类别:
    联合基金项目

相似海外基金

Collaborative Research: CSR: Medium: Scaling Secure Serverless Computing on Heterogeneous Datacenters
协作研究:CSR:中:在异构数据中心上扩展安全无服务器计算
  • 批准号:
    2312206
  • 财政年份:
    2023
  • 资助金额:
    $ 23.8万
  • 项目类别:
    Continuing Grant
Collaborative Research: CSR: Medium: Architecting GPUs for Practical Homomorphic Encryption-based Computing
协作研究:CSR:中:为实用的同态加密计算构建 GPU
  • 批准号:
    2312276
  • 财政年份:
    2023
  • 资助金额:
    $ 23.8万
  • 项目类别:
    Continuing Grant
Collaborative Research: CSR: Medium: Fortuna: Characterizing and Harnessing Performance Variability in Accelerator-rich Clusters
合作研究:CSR:Medium:Fortuna:表征和利用富含加速器的集群中的性能变异性
  • 批准号:
    2312689
  • 财政年份:
    2023
  • 资助金额:
    $ 23.8万
  • 项目类别:
    Continuing Grant
Collaborative Research: CSR: Medium: Fortuna: Characterizing and Harnessing Performance Variability in Accelerator-rich Clusters
合作研究:CSR:Medium:Fortuna:表征和利用富含加速器的集群中的性能变异性
  • 批准号:
    2401244
  • 财政年份:
    2023
  • 资助金额:
    $ 23.8万
  • 项目类别:
    Continuing Grant
Collaborative Research: CSR: Small: Caphammer: A New Security Exploit in Energy Harvesting Systems and its Countermeasures
合作研究:CSR:小型:Caphammer:能量收集系统的新安全漏洞及其对策
  • 批准号:
    2314681
  • 财政年份:
    2023
  • 资助金额:
    $ 23.8万
  • 项目类别:
    Continuing Grant
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了