基于超级计算机的大数据处理支撑平台研究
项目介绍
AI项目解读
基本信息
- 批准号:61872392
- 项目类别:面上项目
- 资助金额:66.0万
- 负责人:
- 依托单位:
- 学科分类:F0204.计算机系统结构与硬件技术
- 结题年份:2022
- 批准年份:2018
- 项目状态:已结题
- 起止时间:2019-01-01 至2022-12-31
- 项目参与者:黄志杰; 刘育擘; 郑馥丹; 罗嘉文; 李寒; 瞿毅力; 王莹; 黎红波; 胡泽杰;
- 关键词:
项目摘要
In recent years, the complex applications consisting of both high-performance computing and big data processing phases come to emerge gradually. The platform able to support both the two computing models is on demand to support applications of this kind. Generally, the distributed cluster used to support big data processing is unable to support high-performance computing applications efficiently. Therefore, this research aims at facilitating the supercomputer designed for high-performance computing to support big data processing, thus coupling the two types of applications on the supercomputer. There exist three challenges when running big data processing jobs on supercomputer: ①the large amounts of files produced by big data processing introduce so heavy workloads that are beyond the capability of the storage system in supercomputer; ②the hybrid job scheduling taking both high-performance computing and big data processing into account confronts with unimagined challenges; ③the big data processing framework must be redesigned to adapt to the architectural characteristics of supercomputer. By considering the three challenges mentioned above, this work focuses on the research of the big data processing-oriented globally-shared storage system, the hybrid job scheduling of high-performance computing and big data processing, and the big data processing framework based on supercomputer. The technologies involved in the research will help to build a supercomputer-based platform supporting big data processing, and ultimately couple high-performance computing and big data processing on the supercomputer.
当前,一些复杂应用同时包含高性能计算和大数据处理两种计算模式,这就要求将两种计算模式统一到一套平台上。然而目前普遍用于大数据处理的分布式集群并不能有效支持高性能计算,因此,本项目试图使面向高性能计算的超级计算机支持大数据处理,从而实现两种计算模式在超级计算机上的融合。在超级计算机上实现大数据处理存在以下三大挑战:①大数据处理应用产生的海量文件将对超级计算机的全局并行文件系统形成巨大的压力;②在融合平台上实现高性能计算作业和大数据处理作业的混合调度面临严峻挑战;③在超级计算机上实现便捷高效的大数据处理还有赖于应用框架的全面革新。针对以上三大挑战,本项目分别从面向大数据处理的全局共享存储系统、高性能计算与大数据处理混合调度系统、基于超级计算机的大数据处理框架三个方面展开研究,构建基于超级计算机的大数据处理支撑平台,最终实现高性能计算与大数据处理在超级计算机上的融合。
结项摘要
高性能计算与大数据处理的融合是超算应用发展的新趋势,为此需重构超算系统软件以满足新的需求。本项目围绕超算上的大规模存储、资源管理与作业调度、大数据处理框架展开研究,促进高性能计算与大数据处理在超算上的融合。具体地,项目研发了大规模可扩展并行文件系统Kapok,同时解决了海量小文件低延迟随机访问和共享大文件高带宽并发访问问题,能够同时支持高性能计算和大数据处理负载,保证了数据存储和管理的融合。突破了物理资源和虚拟资源混合管理技术,提出了Push模式和Pull模式相结合的异构作业调度方法,实现高性能计算作业和大数据处理作业的统一调度,保证了调度上的融合。面向科学大数据的高维度有拓扑特征研发了科学大数据处理框架,针对超算的全局共享存储和处理器的NUMA结构优化了Spark系统,显著提升超算上的大数据处理效率。所研发的系统在超算中心部署使用,支撑了多领域的大量应用。项目发表论文29篇,其中1篇论文被评为中国科协第五届优秀论文,申请专利15项,其中授权11项(含PCT专利5项),登记软件著作权7件。项目成果作为重要支撑材料获得中国电子学会科技进步一等奖和“奥林帕斯”先锋奖。
项目成果
期刊论文数量(10)
专著数量(0)
科研奖励数量(2)
会议论文数量(19)
专利数量(15)
HasFS: optimizing file system consistency mechanism on NVM-based hybrid storage architecture
HasFS:基于NVM的混合存储架构优化文件系统一致性机制
- DOI:10.1007/s10586-019-03023-y
- 发表时间:2019
- 期刊:Cluster Computing
- 影响因子:--
- 作者:Yubo Liu;Hongbo Li;Yutong Lu;Zhiguang Chen;Nong Xiao;Ming Zhao
- 通讯作者:Ming Zhao
A GPU-Accelerated In-Memory Metadata Management Scheme for Large-Scale Parallel File
一种GPU加速的大规模并行文件内存元数据管理方案
- DOI:--
- 发表时间:2021
- 期刊:Journal of Computer Science and Technology
- 影响因子:1.9
- 作者:Zhiguang Chen;Yubo Liu;Yongfeng Wang;Yutong Lu
- 通讯作者:Yutong Lu
面向非易失性内存的持久索引数据结构研究综述
- DOI:--
- 发表时间:2021
- 期刊:大数据
- 影响因子:--
- 作者:王永锋;陈志广
- 通讯作者:陈志广
Design and Implementation of the Tianhe-2 Data Storage and Management System
天河二号数据存储与管理系统的设计与实现
- DOI:--
- 发表时间:2020
- 期刊:Journal of Computer Science and Technology(第五届中国科协优秀论文)
- 影响因子:--
- 作者:Yutong Lu;Peng Cheng;Zhiguang Chen
- 通讯作者:Zhiguang Chen
Tiered data management system: Accelerating data processing on HPC systems
分层数据管理系统:加速 HPC 系统上的数据处理
- DOI:10.1016/j.future.2019.07.046
- 发表时间:2019
- 期刊:Future Generation Computer Systems
- 影响因子:--
- 作者:Peng Cheng;Yutong Lu;Yunfei Du;Zhiguang Chen
- 通讯作者:Zhiguang Chen
数据更新时间:{{ journalArticles.updateTime }}
{{
item.title }}
{{ item.translation_title }}
- DOI:{{ item.doi || "--"}}
- 发表时间:{{ item.publish_year || "--" }}
- 期刊:{{ item.journal_name }}
- 影响因子:{{ item.factor || "--"}}
- 作者:{{ item.authors }}
- 通讯作者:{{ item.author }}
数据更新时间:{{ journalArticles.updateTime }}
{{ item.title }}
- 作者:{{ item.authors }}
数据更新时间:{{ monograph.updateTime }}
{{ item.title }}
- 作者:{{ item.authors }}
数据更新时间:{{ sciAawards.updateTime }}
{{ item.title }}
- 作者:{{ item.authors }}
数据更新时间:{{ conferencePapers.updateTime }}
{{ item.title }}
- 作者:{{ item.authors }}
数据更新时间:{{ patent.updateTime }}
其他文献
大兴安岭根河地区早白垩世火山岩
- DOI:--
- 发表时间:--
- 期刊:岩石学报,2007,23(11)
- 影响因子:--
- 作者:张连昌;陈志广;周新华;英基丰
- 通讯作者:英基丰
一种可定制模块化的闪存转换层的设计与实现
- DOI:--
- 发表时间:--
- 期刊:西安交通大学学报
- 影响因子:--
- 作者:杜溢墨;肖侬;刘芳;陈志广
- 通讯作者:陈志广
基于顺序检测的双队列缓存替换算法
- DOI:--
- 发表时间:--
- 期刊:中国科学:信息科学
- 影响因子:--
- 作者:肖侬;赵英杰;刘芳;陈志广
- 通讯作者:陈志广
基于代理的并行文件系统元数据优化与实现
- DOI:--
- 发表时间:2018
- 期刊:计算机研究与发展
- 影响因子:--
- 作者:易建亮;陈志广;肖侬;卢宇彤
- 通讯作者:卢宇彤
一种用磁盘备份SSD的高性能可靠存储系统
- DOI:--
- 发表时间:--
- 期刊:计算机研究与发展
- 影响因子:--
- 作者:陈志广;肖侬;刘芳
- 通讯作者:刘芳
其他文献
{{
item.title }}
{{ item.translation_title }}
- DOI:{{ item.doi || "--" }}
- 发表时间:{{ item.publish_year || "--"}}
- 期刊:{{ item.journal_name }}
- 影响因子:{{ item.factor || "--" }}
- 作者:{{ item.authors }}
- 通讯作者:{{ item.author }}
内容获取失败,请点击重试
查看分析示例
此项目为已结题,我已根据课题信息分析并撰写以下内容,帮您拓宽课题思路:
AI项目摘要
AI项目思路
AI技术路线图
请为本次AI项目解读的内容对您的实用性打分
非常不实用
非常实用
1
2
3
4
5
6
7
8
9
10
您认为此功能如何分析更能满足您的需求,请填写您的反馈:
陈志广的其他基金
面向新一代超算体系结构的并行文件系统研究
- 批准号:
- 批准年份:2022
- 资助金额:53 万元
- 项目类别:面上项目
相似国自然基金
{{ item.name }}
- 批准号:{{ item.ratify_no }}
- 批准年份:{{ item.approval_year }}
- 资助金额:{{ item.support_num }}
- 项目类别:{{ item.project_type }}
相似海外基金
{{
item.name }}
{{ item.translate_name }}
- 批准号:{{ item.ratify_no }}
- 财政年份:{{ item.approval_year }}
- 资助金额:{{ item.support_num }}
- 项目类别:{{ item.project_type }}