Collaborative Research: CSR-SMA+AES: PROGNOSIS to Enhance the Runtime Health of Large Scale Parallel Systems

合作研究:CSR-SMA AES:增强大规模并行系统运行时健康状况的预测

基本信息

项目摘要

Large scale parallel systems are critical to our computational infrastructure to take on the challenges imposed by applications whose scale and demands exceed the capabilities of machines available in the market today. Pushing the limits of hardware and software technologies to extract the maximum performance, in turn, exacerbates other problems. Notable amongst these problems is the susceptibility to failures, which arises as a consequence of growing hardware transient errors, hardware device failures, software complexity, and the complex hardware/software inter-dependencies between the nodes of a parallel system. These failures can have substantial consequences on system performance, in addition to impacting the costs of maintenance/operation, thereby putting at risk the very motivation behind deploying these large scale systems.This research is expected to make three broad contributions towards developing a runtime infrastructure, called PROGNOSIS, for failure data collection and online analysis. The first set of contributions will be on collecting and analyzing system events and failure data from an actual BlueGene/L system over an extended period of time. In addition to presenting the raw system events, the research will be developing filtering techniques to remove unimportant information and identifying stationary intervals, together with defining the attributes for logging and their frequency. The second set of contributions will be models for online analysis and prediction of evolving failure data by exploiting correlations between system events over time, across the nodes, and with respect to external factors such as imposed workload and operating temperature. The third set of contributions will be on demonstrating the uses of PROGNOSIS. Tools such as PROGNOSIS can help substantially in the development of self-healing systems, which has been noted to be an important goal in the emerging area of Autonomic Computing by several computer vendors.
大规模并行系统对于我们的计算基础设施至关重要,以应对规模和需求超出当今市场上可用机器能力的应用程序带来的挑战。突破硬件和软件技术的极限以获取最大性能,反过来又会加剧其他问题。这些问题中值得注意的是对故障的敏感性,这是由于不断增长的硬件瞬态错误、硬件设备故障、软件复杂性以及并行系统节点之间复杂的硬件/软件相互依赖性而出现的。除了影响维护/操作成本之外,这些故障还可能对系统性能产生重大影响,从而使部署这些大型系统的动机面临风险。这项研究预计将为开发运行时基础设施做出三大贡献,称为 PROGNOSIS,用于故障数据收集和在线分析。第一组贡献将是在较长时间内收集和分析来自实际 BlueGene/L 系统的系统事件和故障数据。除了呈现原始系统事件之外,该研究还将开发过滤技术以删除不重要的信息并识别平稳间隔,同时定义日志记录的属性及其频率。第二组贡献将是通过利用跨节点的系统事件之间的相关性以及外部因素(例如施加的工作负载和工作温度)来在线分析和预测不断变化的故障数据的模型。第三组贡献将展示 PROGNOSIS 的用途。 像 PROGNOSIS 这样的工具可以极大地帮助开发自我修复系统,这已被多家计算机供应商视为新兴自主计算领域的一个重要目标。

项目成果

期刊论文数量(0)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ patent.updateTime }}

Anand Sivasubramaniam其他文献

Network-Based Parallel Computing. Communication, Architecture, and Applications
基于网络的并行计算。
  • DOI:
    10.1007/10704826
  • 发表时间:
    1999-06-11
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Anand Sivasubramaniam;Mario Lauria
  • 通讯作者:
    Mario Lauria

Anand Sivasubramaniam的其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

{{ truncateString('Anand Sivasubramaniam', 18)}}的其他基金

FoMR: Shrinking the Control and Data Flow Latencies of Single Thread Executions for Emerging Workloads
FoMR:缩短新兴工作负载的单线程执行的控制和数据流延迟
  • 批准号:
    1912495
  • 财政年份:
    2019
  • 资助金额:
    $ 10万
  • 项目类别:
    Standard Grant
SHF:Small: Integrated Hardware-Software Power Regulation, Allocation and Isolation in Consolidated Servers
SHF:Small:整合服务器中的集成硬件-软件电源调节、分配和隔离
  • 批准号:
    1714389
  • 财政年份:
    2017
  • 资助金额:
    $ 10万
  • 项目类别:
    Standard Grant
SHF: Small: Virtualizing Coordinated Resource Management of Flows on Handhelds with VIADUCT
SHF:小型:使用 VIADUCT 对手持设备上的流进行虚拟化协调资源管理
  • 批准号:
    1526750
  • 财政年份:
    2015
  • 资助金额:
    $ 10万
  • 项目类别:
    Standard Grant
CSR: Medium: Provisioning and Harnessing Energy Storage for Datacenter Demand Response
CSR:中:为数据中心需求响应配置和利用能源存储
  • 批准号:
    1302225
  • 财政年份:
    2013
  • 资助金额:
    $ 10万
  • 项目类别:
    Continuing Grant
Collaborative Research: CSR---SMA+AES: Pro-Active Runtime Health Enhancement of Large-Scale Parallel Systems Using PROGNOSIS
合作研究:CSR---SMA AES:使用 PROGNOSIS 主动增强大规模并行系统的运行时健康状况
  • 批准号:
    0615097
  • 财政年份:
    2006
  • 资助金额:
    $ 10万
  • 项目类别:
    Continuing Grant
Collaborative Research: Application-adaptive I/O Stack for Data-intensive Scientific Computing
协作研究:用于数据密集型科学计算的应用自适应 I/O 堆栈
  • 批准号:
    0621427
  • 财政年份:
    2006
  • 资助金额:
    $ 10万
  • 项目类别:
    Standard Grant
HECURA: Exploiting Asymmetry in Performance and Security Requirements for I/O in High-end Computing
HECURA:利​​用高端计算中 I/O 性能和安全要求的不对称性
  • 批准号:
    0621429
  • 财政年份:
    2006
  • 资助金额:
    $ 10万
  • 项目类别:
    Standard Grant
Tools and Techniques for Integrated Power Management of Server Disks
服务器磁盘集成电源管理的工具和技术
  • 批准号:
    0429500
  • 财政年份:
    2004
  • 资助金额:
    $ 10万
  • 项目类别:
    Continuing Grant
ITR: Data-Driven Autonomic Performance Modulation for Servers
ITR:数据驱动的服务器自主性能调制
  • 批准号:
    0325056
  • 财政年份:
    2003
  • 资助金额:
    $ 10万
  • 项目类别:
    Continuing Grant
CISE Research Resources: From High Performance to Low Power: Infrastructure for Ubiquitous Computing
CISE 研究资源:从高性能到低功耗:普适计算的基础设施
  • 批准号:
    0130143
  • 财政年份:
    2002
  • 资助金额:
    $ 10万
  • 项目类别:
    Standard Grant

相似国自然基金

信号理论视角下的企业社会责任逆向解耦策略研究
  • 批准号:
  • 批准年份:
    2022
  • 资助金额:
    30 万元
  • 项目类别:
    青年科学基金项目
“双碳”目标视域下企业社会责任对碳排放的作用机理、实现路径与行为演化研究
  • 批准号:
  • 批准年份:
    2022
  • 资助金额:
    45 万元
  • 项目类别:
    面上项目
平台型企业社会责任行为内在驱动机制与能力构建研究
  • 批准号:
  • 批准年份:
    2022
  • 资助金额:
    30 万元
  • 项目类别:
    青年科学基金项目
共同富裕目标下企业社会责任的实现路径及绩效研究
  • 批准号:
    72272171
  • 批准年份:
    2022
  • 资助金额:
    45 万元
  • 项目类别:
    面上项目
中资海外旅游企业社会责任的测度及其因果机制研究:以马来西亚为例
  • 批准号:
  • 批准年份:
    2022
  • 资助金额:
    30 万元
  • 项目类别:
    青年科学基金项目

相似海外基金

Collaborative Research: CSR: Small: Caphammer: A New Security Exploit in Energy Harvesting Systems and its Countermeasures
合作研究:CSR:小型:Caphammer:能量收集系统的新安全漏洞及其对策
  • 批准号:
    2314680
  • 财政年份:
    2023
  • 资助金额:
    $ 10万
  • 项目类别:
    Continuing Grant
Collaborative Research: CSR: Medium: Scaling Secure Serverless Computing on Heterogeneous Datacenters
协作研究:CSR:中:在异构数据中心上扩展安全无服务器计算
  • 批准号:
    2312207
  • 财政年份:
    2023
  • 资助金额:
    $ 10万
  • 项目类别:
    Continuing Grant
Collaborative Research: CSR: Medium: MemDrive: Memory-Driven Full-Stack Collaboration for Autonomous Embedded Systems
协作研究:CSR:媒介:MemDrive:自主嵌入式系统的内存驱动全栈协作
  • 批准号:
    2312397
  • 财政年份:
    2023
  • 资助金额:
    $ 10万
  • 项目类别:
    Continuing Grant
Collaborative Research: CSR: Medium: Adaptive Environmental Awareness for Collaborative Augmented Reality
协作研究:企业社会责任:媒介:协作增强现实的自适应环境意识
  • 批准号:
    2312762
  • 财政年份:
    2023
  • 资助金额:
    $ 10万
  • 项目类别:
    Continuing Grant
Collaborative Research: CSR: Core: Medium: Scaling Unix/Linux Shell Programs
协作研究:CSR:核心:中:扩展 Unix/Linux Shell 程序
  • 批准号:
    2312346
  • 财政年份:
    2023
  • 资助金额:
    $ 10万
  • 项目类别:
    Continuing Grant
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了