面向大规模并行计算机系统的应用级检查点关键技术研究

结题报告
项目介绍
AI项目解读

基本信息

  • 批准号:
    61003087
  • 项目类别:
    青年科学基金项目
  • 资助金额:
    19.0万
  • 负责人:
  • 依托单位:
  • 学科分类:
    F0204.计算机系统结构与硬件技术
  • 结题年份:
    2013
  • 批准年份:
    2010
  • 项目状态:
    已结题
  • 起止时间:
    2011-01-01 至2013-12-31

项目摘要

随着并行计算机系统规模的增加,系统的平均无故障时间远低于许多大规模科学计算程序的运行时间,系统可靠性问题已成为大规模并行计算机系统发展的重大挑战之一。应用级检查点技术是应对这一挑战的关键技术之一。为了充分发挥应用级检查点技术的性能优势,应用级检查点的容错开销优化已成为并行计算机系统容错技术的研究热点。本课题基于大规模并行计算的特点,展开面向大规模系统的多项应用级检查点容错开销优化的关键技术研究。这些关键技术的研究内容包括以下三项:面向数组的状态保存开销优化、快速高效的故障恢复以及多检查点的优化设置。本课题的目的是通过对上述关键技术的研究,有效降低应用级检查点技术的容错开销,使之能够更加有效地解决大规模并行计算机系统的可靠性问题。

结项摘要

应用级检查点技术是目前大规模并行计算机系统的主流容错技术之一,然而,容错开销仍然是应用级检查点技术面临的巨大挑战。为了充分发挥应用级检查点技术的性能优势,并促进其能够在大规模系统中取得良好应用效果,容错开销优化是关键问题所在。本课题针对应用级检查点容错开销的若干关键技术开展了深入研究,主要包括基于模板的并行复算代码生成方法,应用级检查点的理论建模和检查点选择方法和基于内存缓存的应用级检查点状态保存开销优化技术等方面。同时,由于多核系统和异构系统已成为大规模并行系统的基础组成部分,面向多核和异构系统的容错技术也是技术发展的重要趋势,本项目对多核系统上的OpenMP程序和异构系统上的GPGPU展开了应用级检查点的关键技术研究。本项内容主要包括面向多核系统的应用级检查点技术和面向异构系统的检查点容错技术等方面。并行复算代码生成方面,提出了一种新的基于模板的复算代码的生成方法,并给出了设计方法和编译自动化生成的实现框架,使并行复算的计算效率更高。应用级检查点理论分析方面,量化了“可靠墙”的概念,提出了可靠墙和广义可靠墙理论,并基于可靠墙理论,设计了同步和异步两种多检查点的设置方法。状态保存开销优化方面,提出了基于内存缓存的异步检查点技术,利用异步优化技术隐藏将数据从内存写入到文件系统的开销,实现了将应用级检查点中数据保存的I/O操作开销转变成写内存操作开销,大大优化了状态保存开销。面向多核系统的应用级检查点技术方面,提出了一种基于扩展数据流分析的OpenMP程序应用级检查点机制,并提出了针对OpenMP 程序的并行复算方法。同时,针对多核系统上的事务存储系统,提出了面向事务存储系统的错误检测和故障恢复方法。异构系统的检查点容错技术方面,提出了一种基于冗余线程的GPU多副本容错技术和面向异构系统的应用级检查点数据保存的优化方法,并提出了面向GPGPU 程序的部分复算方法以及基于部分复算的故障恢复方法。本课题上述研究为应用级检查点技术的容错开销优化以及在异构系统上的实现奠定坚实的理论和技术基础,同时,本项目的主要成果都在具体的大规模系统上进行了实验验证,在理论意义以及实际应用方面都有所突破,提出的方法不仅在学术上具有创新性,同时,具有很强的工程实用性,对提高生产力也有着重要的意义。

项目成果

期刊论文数量(13)
专著数量(0)
科研奖励数量(0)
会议论文数量(7)
专利数量(0)
Optimizing Linpack Benchmark on GPU-Accelerated Petascale Supercomputer
在 GPU 加速千万亿级超级计算机上优化 Linpack 基准测试
  • DOI:
    10.1007/s11390-011-0184-1
  • 发表时间:
    2011-09
  • 期刊:
    计算机科学技术学报:英文版
  • 影响因子:
    --
  • 作者:
    王锋;杨灿群;杜云飞;陈娟;易会战;徐炜遐
  • 通讯作者:
    徐炜遐
异构系统硬件故障传播行为分析及容错优化
  • DOI:
    --
  • 发表时间:
    2011
  • 期刊:
    软件学报
  • 影响因子:
    --
  • 作者:
    贾佳;杨学军;JIA Jia,YANG Xue-Jun(National Key Laboratory for P
  • 通讯作者:
    JIA Jia,YANG Xue-Jun(National Key Laboratory for P
基于冗余事务的事务存储系统的错误检测
  • DOI:
    --
  • 发表时间:
    2013
  • 期刊:
    计算机研究与发展
  • 影响因子:
    --
  • 作者:
    宋伟;杨学军
  • 通讯作者:
    杨学军
容错并行算法的分类和设计
  • DOI:
    --
  • 发表时间:
    2011
  • 期刊:
    Journal of Huazhong University of Science and Technology (Natural Science Edition)
  • 影响因子:
    --
  • 作者:
    杜云飞;唐玉华
  • 通讯作者:
    唐玉华
PartialRC: A Partial Recomputing Method for Efficient Fault Recovery on GPGPUs
PartialRC:一种在 GPGPU 上实现高效故障恢复的部分重新计算方法
  • DOI:
    10.1007/s11390-012-1220-5
  • 发表时间:
    2012-03
  • 期刊:
    Journal of Computer Science and Technology
  • 影响因子:
    0.7
  • 作者:
    徐新海;杨学军;薛京灵;林宇斐;林一松;Xin-Hai Xu 1 , Student Member, CCF, ACM Xue-Jun Ya
  • 通讯作者:
    Xin-Hai Xu 1 , Student Member, CCF, ACM Xue-Jun Ya

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi || "--"}}
  • 发表时间:
    {{ item.publish_year || "--" }}
  • 期刊:
    {{ item.journal_name }}
  • 影响因子:
    {{ item.factor || "--"}}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.authors }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.authors }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.authors }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.authors }}

数据更新时间:{{ patent.updateTime }}

其他文献

并行复算:一种面向高性能计算的新的容错方法
  • DOI:
    --
  • 发表时间:
    --
  • 期刊:
    计算机科学
  • 影响因子:
    --
  • 作者:
    周海芳;王攀峰;杜云飞;杨学军;富弘毅
  • 通讯作者:
    富弘毅
2011年中国能源流分析
  • DOI:
    --
  • 发表时间:
    2013
  • 期刊:
    中国能源
  • 影响因子:
    --
  • 作者:
    杜云飞;廖华;魏一鸣
  • 通讯作者:
    魏一鸣
Synthetic method for dibenzepin derivative
二苯氮平衍生物的合成方法
  • DOI:
    --
  • 发表时间:
    2013
  • 期刊:
  • 影响因子:
    --
  • 作者:
    杜云飞;李旭明;张翔;赵康
  • 通讯作者:
    赵康
遥感图像像素级融合方法的建模与分析
  • DOI:
    --
  • 发表时间:
    --
  • 期刊:
    计算机工程与科学
  • 影响因子:
    --
  • 作者:
    杜云飞;贾佳;杨学军;王攀峰;周海芳
  • 通讯作者:
    周海芳
基于复小波变换的遥感图像并行融合算法
  • DOI:
    --
  • 发表时间:
    --
  • 期刊:
    计算机工程与科学
  • 影响因子:
    --
  • 作者:
    杜云飞;周海芳;王攀峰;杨学军
  • 通讯作者:
    杨学军

其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi || "--" }}
  • 发表时间:
    {{ item.publish_year || "--"}}
  • 期刊:
    {{ item.journal_name }}
  • 影响因子:
    {{ item.factor || "--" }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}
empty
内容获取失败,请点击重试
重试联系客服
title开始分析
查看分析示例
此项目为已结题,我已根据课题信息分析并撰写以下内容,帮您拓宽课题思路:

AI项目思路

AI技术路线图

相似国自然基金

{{ item.name }}
  • 批准号:
    {{ item.ratify_no }}
  • 批准年份:
    {{ item.approval_year }}
  • 资助金额:
    {{ item.support_num }}
  • 项目类别:
    {{ item.project_type }}

相似海外基金

{{ item.name }}
{{ item.translate_name }}
  • 批准号:
    {{ item.ratify_no }}
  • 财政年份:
    {{ item.approval_year }}
  • 资助金额:
    {{ item.support_num }}
  • 项目类别:
    {{ item.project_type }}
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了

AI项目解读示例

课题项目:调控A型流感病毒诱导IFN-β表达的机制研究

AI项目摘要:

本研究聚焦于TRIM2蛋白在A型流感病毒诱导的IFN-β表达中的调控机制。A型流感病毒是全球性健康问题,其感染可导致严重的呼吸道疾病。IFN-β作为关键的抗病毒因子,其表达水平对抗病毒防御至关重要。然而,TRIM2如何调控IFN-β的表达尚未明确。本研究假设TRIM2通过与病毒RNA或宿主因子相互作用,影响IFN-β的产生。我们将采用分子生物学、细胞生物学和免疫学方法,探索TRIM2与A型流感病毒诱导IFN-β表达的关系。预期结果将揭示TRIM2在抗病毒免疫反应中的作用,为开发新的抗病毒策略提供理论基础。该研究对理解宿主抗病毒机制具有重要科学意义,并可能对临床治疗流感病毒感染提供新的视角。

AI项目思路:

科学问题:TRIM2如何调控A型流感病毒诱导的IFN-β表达?
前期研究:已有研究表明TRIM2参与抗病毒反应,但其具体机制尚不明确。
研究创新点:本研究将深入探讨TRIM2在IFN-β表达中的直接作用机制。
技术路线:包括病毒学、分子生物学、细胞培养和免疫检测技术。
关键技术:TRIM2与病毒RNA的相互作用分析,IFN-β启动子活性检测。
实验模型:使用A型流感病毒感染的细胞模型进行研究。

AI技术路线图

        graph TD
          A[研究起始] --> B[文献回顾与假设提出]
          B --> C[实验设计与方法学准备]
          C --> D[A型流感病毒感染模型建立]
          D --> E[TRIM2与病毒RNA相互作用分析]
          E --> F[TRIM2对IFN-β启动子活性的影响]
          F --> G[IFN-β表达水平测定]
          G --> H[TRIM2功能丧失与获得研究]
          H --> I[数据收集与分析]
          I --> J[结果解释与科学验证]
          J --> K[研究结论与未来方向]
          K --> L[研究结束]
      
关闭
close
客服二维码