分布式参数服务器架构的可扩展性研究
项目介绍
AI项目解读
基本信息
- 批准号:61802358
- 项目类别:青年科学基金项目
- 资助金额:25.0万
- 负责人:
- 依托单位:
- 学科分类:F0202.系统软件、数据库与工业软件
- 结题年份:2021
- 批准年份:2018
- 项目状态:已结题
- 起止时间:2019-01-01 至2021-12-31
- 项目参与者:张辉; 陈友旭; 郭帆; 郑一露; 白有辉; 苏景波; 邵新洋; 许冠斌; 徐亮亮;
- 关键词:
项目摘要
The distributed Parameter Server architecture has been widely adopted by the mainstream machine learning systems. However, due to the lack of agile scalability, it is challenging for this architecture to rapidly adapt to dynamic changes in workloads and resources such as computing power or network bandwidth, in heterogeneous environments, thus limiting the development of relevant technologies and applications that expect real-time responses. To this end, this project aims to: (1) design a software-defined Parameter Server architecture, decoupling the parameter exchange and the node management modules, and offering workload-aware elastic scalability; (2) formalize a general model capturing the tension between the parameter synchronization mechanisms and performance in heterogeneous environments, guiding the choice of those mechanisms with better performance; (3) propose a dynamic data compression mechanism aware of changes in resources and loads, striking the reasonable balance between the data compression rate and available resources and speeding up the parameter exchange. Based on these three studies, we further plan to design and implement a highly scalable prototype system that demonstrates all above claims, to meet the unprecedented demands of vast machine learning applications.
分布式参数服务器架构是主流机器学习系统所广泛采用的系统架构方式。在大数据-大计算的背景下,由于缺乏敏捷的可扩展性,该架构难以快速应对计算任务量突发改变和异构环境中计算资源与网络带宽动态变化等状况,严重制约了对实时性要求较高的相关技术和应用的发展。本项目拟:(1)设计基于软件定义的新参数服务器架构,解耦参数传递与节点管理等功能模块,实现对计算任务量变化感知的弹性可扩展性;(2)建立异构环境中参数同步机制与系统性能制约关系的一般模型,通过建模分析和对比实验的方法指导不同应用选择适配的性能最优的同步机制;(3)提出资源和负载感知的数据压缩机制,寻求压缩率与计算和带宽资源之间的动态平衡,避免计算资源竞争和过度压缩,提高参数交换速率;基于这三方面的研究,设计实现原型系统进行验证,冀显著提高分布式参数服务器架构的可扩展性,以满足日益增长的机器学习应用的实际需求。
结项摘要
为在大数据集上高效地训练深度学习模型,利用大规模GPU集群的并行计算能力和数据并行训练方式已成常态。在数据并行训练中,节点间通过参数服务器(PS)或Ring-allreduce等同步架构在每次迭代中交换大量梯度。然而,在GPU架构创新和专用领域编译技术蓬勃发展的推动下,快速增长的计算能力导致更频繁的梯度同步。因此,梯度同步和并行计算之间存在着矛盾,严重制约了分布式参数服务器等同步架构的可扩展性。为此,本项目的研究及主要成果包括:. 1. 研究了压缩感知的可扩展梯度同步架构。首先提出一个通用、可组合的梯度同步架构 CaSync,通过通信、聚合和压缩算子解耦和组合来实现压缩感知的梯度同步。其次,重叠和批量执行计算和通信任务,将通信开销隐藏在与压缩有关的计算中,反之亦然。CaSync还采用了一种选择性的梯度压缩和切分机制,以决定是否压缩每个梯度,以及如何切分大梯度。CaSync可与多种压缩算法和同步策略适配。. 2. 研究了梯度压缩算法的敏捷开发和集成。设计梯度压缩工具包CompLL,为面向GPU的压缩算法开发和面向深度学习框架的集成提供了便利。CompLL 提供了统一的 API 抽象和专用领域语言,并实现了高度优化的通用压缩算子库。CompLL将开发者的算法逻辑描述转换为高效的底层GPU实现代码,并自动集成到DNN系统中,几乎不需要人工干预。. 3. 研究了大图上图神经网络并行训练的数据加载问题。首先,提出静态缓存策略,将频繁访问的图数据保存在空闲GPU内存中,引入支持缓存的数据加载机制,避免从主机内存的重复加载。其次,将数据并行应用于基于采样的图神经网络训练,通过数据划分和多GPU缓存,改善数据局部性,增加缓存顶点的总数,消除并发情况下的数据加载瓶颈。. 4. 研究了面向智能计算的大数据存储问题。海量小文件的存取对于面向智能计算的分布式存储系统提出了新挑战。为此,设计高效元数据预取和管理机制、利用新型存储硬件、重构分布式存储系统,以满足智能应用低延迟高吞吐的存储需求。. 本项目在SOSP、FAST、VLDB、SC等权威学术会议和ACM TOS、IEEE TPDS等国际重要期刊上发表论文17篇,申请专利3项。项目负责人李诚获得2021年ACM ChinaSys新星奖和ACM中国新星提名奖。
项目成果
期刊论文数量(7)
专著数量(0)
科研奖励数量(6)
会议论文数量(10)
专利数量(3)
Towards Cost-Effective and Elastic Cloud Database Deployment via Memory Disaggregation
通过内存分解实现经济高效、弹性的云数据库部署
- DOI:10.14778/3467861.3467877
- 发表时间:2021-06
- 期刊:Proc. VLDB Endow.
- 影响因子:--
- 作者:Zhang Yingqiang;Ruan Chaoyi;Li Cheng;Yang Xinjun;Cao Wei;Li Feifei;Wang Bo;Fang Jing;Wang Yuhui;Huo Jingze;Bi Chao
- 通讯作者:Bi Chao
MTFC: A Multi-GPU Training Framework for Cube-CNN-based Hyperspectral Image Classification
MTFC:基于 Cube-CNN 的高光谱图像分类的多 GPU 训练框架
- DOI:10.1109/tetc.2020.3016978
- 发表时间:2020
- 期刊:IEEE Transactions on Emerging Topics in Computing
- 影响因子:5.9
- 作者:Ye Lu;Kunpeng Xie;Guanbin Xu;Han Dong;Cheng Li;Tao Li
- 通讯作者:Tao Li
Leveraging NVMe SSDs for Building a Fast, Cost-effective, LSM-tree-based KV Store
利用 NVMe SSD 构建快速、经济高效、基于 LSM 树的 KV 存储
- DOI:10.1145/3480963
- 发表时间:2021-11
- 期刊:ACM Trans. Storage
- 影响因子:--
- 作者:Li Cheng;Chen Hao;Ruan Chaoyi;Ma Xiaosong;Xu Yinlong
- 通讯作者:Xu Yinlong
Efficient Data Loader for Fast Sampling-Based GNN Training on Large Graphs
用于大图上基于快速采样的 GNN 训练的高效数据加载器
- DOI:10.1109/tpds.2021.3065737
- 发表时间:2021-10
- 期刊:IEEE Transactions on Parallel and Distributed Systems
- 影响因子:5.3
- 作者:Bai Youhui;Li Cheng;Lin Zhiqi;Wu Yufei;Miao Youshan;Liu Yunxin;Xu Yinlong
- 通讯作者:Xu Yinlong
vPipe: A Virtualized Acceleration System for Achieving Efficient and Scalable Pipeline Parallel DNN Training
vPipe:用于实现高效且可扩展的管道并行 DNN 训练的虚拟化加速系统
- DOI:10.1109/tpds.2021.3094364
- 发表时间:2022-03
- 期刊:IEEE Transactions on Parallel and Distributed Systems
- 影响因子:5.3
- 作者:Zhao Shixiong;Li Fanxin;Chen Xusheng;Guan Xiuxian;Jiang Jianyu;Huang Dong;Qing Yuhao;Wang Sen;Wang Peng;Zhang Gong;Li Cheng;Luo Ping;Cui Heming
- 通讯作者:Cui Heming
数据更新时间:{{ journalArticles.updateTime }}
{{
item.title }}
{{ item.translation_title }}
- DOI:{{ item.doi || "--"}}
- 发表时间:{{ item.publish_year || "--" }}
- 期刊:{{ item.journal_name }}
- 影响因子:{{ item.factor || "--"}}
- 作者:{{ item.authors }}
- 通讯作者:{{ item.author }}
数据更新时间:{{ journalArticles.updateTime }}
{{ item.title }}
- 作者:{{ item.authors }}
数据更新时间:{{ monograph.updateTime }}
{{ item.title }}
- 作者:{{ item.authors }}
数据更新时间:{{ sciAawards.updateTime }}
{{ item.title }}
- 作者:{{ item.authors }}
数据更新时间:{{ conferencePapers.updateTime }}
{{ item.title }}
- 作者:{{ item.authors }}
数据更新时间:{{ patent.updateTime }}
其他文献
Star-Shaped Electron Acceptor based on Naphthalenediimide-Porphyrin for Non-Fullerene Organic Solar Cells
用于非富勒烯有机太阳能电池的基于萘二亚胺-卟啉的星形电子受体
- DOI:10.3866/pku.whxb201709112
- 发表时间:2018
- 期刊:Acta Physico - Chimica Sinica
- 影响因子:--
- 作者:周士超;冯贵涛;夏冬冬;李诚;武永刚;李韦伟
- 通讯作者:李韦伟
磷运筹和干旱胁迫对冬小麦农艺性状和品质性状的影响
- DOI:10.7606/j.issn.1009-1041.2019.07.10
- 发表时间:2019
- 期刊:麦类作物学报
- 影响因子:--
- 作者:李诚;王晓丽;陈和平;张润琪;鲍艺丹;朱长安;李春艳
- 通讯作者:李春艳
面向医学数据的分层剥离体绘制算法
- DOI:--
- 发表时间:--
- 期刊:计算机辅助设计与图形学学报
- 影响因子:--
- 作者:黄鲜萍;蒋莉;梁荣华;谭国珍;李诚;吴福理
- 通讯作者:吴福理
Strategy of Classification and Repairing for Hole of Incomplete Point Clouds Based on Fuzzy Inference
基于模糊推理的不完整点云空洞分类与修复策略
- DOI:--
- 发表时间:2016-11
- 期刊:Journal of Computational and Theoretical Nanoscience
- 影响因子:--
- 作者:刘艳菊;王淼;张宏烈;李诚;刘彦忠
- 通讯作者:刘彦忠
镉对铜绿微囊藻和斜生栅藻的毒性效应
- DOI:--
- 发表时间:2014
- 期刊:中国环境科学
- 影响因子:--
- 作者:闫浩;夏文彤;李诚;张庭廷
- 通讯作者:张庭廷
其他文献
{{
item.title }}
{{ item.translation_title }}
- DOI:{{ item.doi || "--" }}
- 发表时间:{{ item.publish_year || "--"}}
- 期刊:{{ item.journal_name }}
- 影响因子:{{ item.factor || "--" }}
- 作者:{{ item.authors }}
- 通讯作者:{{ item.author }}
内容获取失败,请点击重试
查看分析示例
此项目为已结题,我已根据课题信息分析并撰写以下内容,帮您拓宽课题思路:
AI项目摘要
AI项目思路
AI技术路线图
请为本次AI项目解读的内容对您的实用性打分
非常不实用
非常实用
1
2
3
4
5
6
7
8
9
10
您认为此功能如何分析更能满足您的需求,请填写您的反馈:
相似国自然基金
{{ item.name }}
- 批准号:{{ item.ratify_no }}
- 批准年份:{{ item.approval_year }}
- 资助金额:{{ item.support_num }}
- 项目类别:{{ item.project_type }}
相似海外基金
{{
item.name }}
{{ item.translate_name }}
- 批准号:{{ item.ratify_no }}
- 财政年份:{{ item.approval_year }}
- 资助金额:{{ item.support_num }}
- 项目类别:{{ item.project_type }}