面向大规模并行计算机系统的应用级检查点关键技术研究
项目介绍
AI项目解读
基本信息
- 批准号:61003087
- 项目类别:青年科学基金项目
- 资助金额:19.0万
- 负责人:
- 依托单位:
- 学科分类:F0204.计算机系统结构与硬件技术
- 结题年份:2013
- 批准年份:2010
- 项目状态:已结题
- 起止时间:2011-01-01 至2013-12-31
- 项目参与者:高珑; 富弘毅; 吴强; 宋伟; 贾佳;
- 关键词:
项目摘要
随着并行计算机系统规模的增加,系统的平均无故障时间远低于许多大规模科学计算程序的运行时间,系统可靠性问题已成为大规模并行计算机系统发展的重大挑战之一。应用级检查点技术是应对这一挑战的关键技术之一。为了充分发挥应用级检查点技术的性能优势,应用级检查点的容错开销优化已成为并行计算机系统容错技术的研究热点。本课题基于大规模并行计算的特点,展开面向大规模系统的多项应用级检查点容错开销优化的关键技术研究。这些关键技术的研究内容包括以下三项:面向数组的状态保存开销优化、快速高效的故障恢复以及多检查点的优化设置。本课题的目的是通过对上述关键技术的研究,有效降低应用级检查点技术的容错开销,使之能够更加有效地解决大规模并行计算机系统的可靠性问题。
结项摘要
应用级检查点技术是目前大规模并行计算机系统的主流容错技术之一,然而,容错开销仍然是应用级检查点技术面临的巨大挑战。为了充分发挥应用级检查点技术的性能优势,并促进其能够在大规模系统中取得良好应用效果,容错开销优化是关键问题所在。本课题针对应用级检查点容错开销的若干关键技术开展了深入研究,主要包括基于模板的并行复算代码生成方法,应用级检查点的理论建模和检查点选择方法和基于内存缓存的应用级检查点状态保存开销优化技术等方面。同时,由于多核系统和异构系统已成为大规模并行系统的基础组成部分,面向多核和异构系统的容错技术也是技术发展的重要趋势,本项目对多核系统上的OpenMP程序和异构系统上的GPGPU展开了应用级检查点的关键技术研究。本项内容主要包括面向多核系统的应用级检查点技术和面向异构系统的检查点容错技术等方面。并行复算代码生成方面,提出了一种新的基于模板的复算代码的生成方法,并给出了设计方法和编译自动化生成的实现框架,使并行复算的计算效率更高。应用级检查点理论分析方面,量化了“可靠墙”的概念,提出了可靠墙和广义可靠墙理论,并基于可靠墙理论,设计了同步和异步两种多检查点的设置方法。状态保存开销优化方面,提出了基于内存缓存的异步检查点技术,利用异步优化技术隐藏将数据从内存写入到文件系统的开销,实现了将应用级检查点中数据保存的I/O操作开销转变成写内存操作开销,大大优化了状态保存开销。面向多核系统的应用级检查点技术方面,提出了一种基于扩展数据流分析的OpenMP程序应用级检查点机制,并提出了针对OpenMP 程序的并行复算方法。同时,针对多核系统上的事务存储系统,提出了面向事务存储系统的错误检测和故障恢复方法。异构系统的检查点容错技术方面,提出了一种基于冗余线程的GPU多副本容错技术和面向异构系统的应用级检查点数据保存的优化方法,并提出了面向GPGPU 程序的部分复算方法以及基于部分复算的故障恢复方法。本课题上述研究为应用级检查点技术的容错开销优化以及在异构系统上的实现奠定坚实的理论和技术基础,同时,本项目的主要成果都在具体的大规模系统上进行了实验验证,在理论意义以及实际应用方面都有所突破,提出的方法不仅在学术上具有创新性,同时,具有很强的工程实用性,对提高生产力也有着重要的意义。
项目成果
期刊论文数量(13)
专著数量(0)
科研奖励数量(0)
会议论文数量(7)
专利数量(0)
Optimizing Linpack Benchmark on GPU-Accelerated Petascale Supercomputer
在 GPU 加速千万亿级超级计算机上优化 Linpack 基准测试
- DOI:10.1007/s11390-011-0184-1
- 发表时间:2011-09
- 期刊:计算机科学技术学报:英文版
- 影响因子:--
- 作者:王锋;杨灿群;杜云飞;陈娟;易会战;徐炜遐
- 通讯作者:徐炜遐
异构系统硬件故障传播行为分析及容错优化
- DOI:--
- 发表时间:2011
- 期刊:软件学报
- 影响因子:--
- 作者:贾佳;杨学军;JIA Jia,YANG Xue-Jun(National Key Laboratory for P
- 通讯作者:JIA Jia,YANG Xue-Jun(National Key Laboratory for P
基于冗余事务的事务存储系统的错误检测
- DOI:--
- 发表时间:2013
- 期刊:计算机研究与发展
- 影响因子:--
- 作者:宋伟;杨学军
- 通讯作者:杨学军
容错并行算法的分类和设计
- DOI:--
- 发表时间:2011
- 期刊:Journal of Huazhong University of Science and Technology (Natural Science Edition)
- 影响因子:--
- 作者:杜云飞;唐玉华
- 通讯作者:唐玉华
PartialRC: A Partial Recomputing Method for Efficient Fault Recovery on GPGPUs
PartialRC:一种在 GPGPU 上实现高效故障恢复的部分重新计算方法
- DOI:10.1007/s11390-012-1220-5
- 发表时间:2012-03
- 期刊:Journal of Computer Science and Technology
- 影响因子:0.7
- 作者:徐新海;杨学军;薛京灵;林宇斐;林一松;Xin-Hai Xu 1 , Student Member, CCF, ACM Xue-Jun Ya
- 通讯作者:Xin-Hai Xu 1 , Student Member, CCF, ACM Xue-Jun Ya
数据更新时间:{{ journalArticles.updateTime }}
{{
item.title }}
{{ item.translation_title }}
- DOI:{{ item.doi || "--"}}
- 发表时间:{{ item.publish_year || "--" }}
- 期刊:{{ item.journal_name }}
- 影响因子:{{ item.factor || "--"}}
- 作者:{{ item.authors }}
- 通讯作者:{{ item.author }}
数据更新时间:{{ journalArticles.updateTime }}
{{ item.title }}
- 作者:{{ item.authors }}
数据更新时间:{{ monograph.updateTime }}
{{ item.title }}
- 作者:{{ item.authors }}
数据更新时间:{{ sciAawards.updateTime }}
{{ item.title }}
- 作者:{{ item.authors }}
数据更新时间:{{ conferencePapers.updateTime }}
{{ item.title }}
- 作者:{{ item.authors }}
数据更新时间:{{ patent.updateTime }}
其他文献
并行复算:一种面向高性能计算的新的容错方法
- DOI:--
- 发表时间:--
- 期刊:计算机科学
- 影响因子:--
- 作者:周海芳;王攀峰;杜云飞;杨学军;富弘毅
- 通讯作者:富弘毅
2011年中国能源流分析
- DOI:--
- 发表时间:2013
- 期刊:中国能源
- 影响因子:--
- 作者:杜云飞;廖华;魏一鸣
- 通讯作者:魏一鸣
Synthetic method for dibenzepin derivative
二苯氮平衍生物的合成方法
- DOI:--
- 发表时间:2013
- 期刊:
- 影响因子:--
- 作者:杜云飞;李旭明;张翔;赵康
- 通讯作者:赵康
遥感图像像素级融合方法的建模与分析
- DOI:--
- 发表时间:--
- 期刊:计算机工程与科学
- 影响因子:--
- 作者:杜云飞;贾佳;杨学军;王攀峰;周海芳
- 通讯作者:周海芳
基于复小波变换的遥感图像并行融合算法
- DOI:--
- 发表时间:--
- 期刊:计算机工程与科学
- 影响因子:--
- 作者:杜云飞;周海芳;王攀峰;杨学军
- 通讯作者:杨学军
其他文献
{{
item.title }}
{{ item.translation_title }}
- DOI:{{ item.doi || "--" }}
- 发表时间:{{ item.publish_year || "--"}}
- 期刊:{{ item.journal_name }}
- 影响因子:{{ item.factor || "--" }}
- 作者:{{ item.authors }}
- 通讯作者:{{ item.author }}

内容获取失败,请点击重试

查看分析示例
此项目为已结题,我已根据课题信息分析并撰写以下内容,帮您拓宽课题思路:
AI项目摘要
AI项目思路
AI技术路线图

请为本次AI项目解读的内容对您的实用性打分
非常不实用
非常实用
1
2
3
4
5
6
7
8
9
10
您认为此功能如何分析更能满足您的需求,请填写您的反馈:
相似国自然基金
{{ item.name }}
- 批准号:{{ item.ratify_no }}
- 批准年份:{{ item.approval_year }}
- 资助金额:{{ item.support_num }}
- 项目类别:{{ item.project_type }}
相似海外基金
{{
item.name }}
{{ item.translate_name }}
- 批准号:{{ item.ratify_no }}
- 财政年份:{{ item.approval_year }}
- 资助金额:{{ item.support_num }}
- 项目类别:{{ item.project_type }}