基于弱同步策略的分布式深度学习并行优化理论与方法研究

结题报告

项目介绍

AI项目解读

基本信息

批准号：
61672250
项目类别：
面上项目
资助金额：
63.0万
负责人：
蒋文斌
依托单位：
华中科技大学
学科分类：
F0204.计算机系统结构与硬件技术
结题年份：
2020
批准年份：
2016
项目状态：
已结题
起止时间：
2017-01-01 至2020-12-31

项目参与者：
刘小白；郭人通；朱亮；范学鹏；池也；张杨松；叶阁焰；李陈希；石翔；
关键词：
深度学习分布式系统弱同步理论并行优化

项目摘要

Deep learning is an emerging powerful method for big data analysis. The huge amount and high complexity make the parallelization for deep learning necessary. However, current ideas for parallelization of deep learning still mainly stay the primary stage with the strict synchronization model, matrixes parallel optimization, coarse-grained parallelization. The degree and efficiency of parallelization are very limited. To explore higher efficient parallelization methods and their related theories inside, this project plans to do the following researches: 1) studying the theories of stale synchronization model for deep learning to provide theoretical support for more flexible and efficient parallelization; 2) Exploring new multi-level data parallelization methods, based on layered stale synchronization strategies; 3) studying novel highly frequent data exchange methods by exploring pipeline-based stale synchronization strategies for model parallelization; 4) Exploring new distributed network parameter model management model, which can break the bottleneck of the current centralized model for parameters, based on stale synchronization theory. The achievements from this project are breakthroughs of the traditional parallelization of deep learning. They will provide more flexible and efficient strategies and powerful theories for distributed deep learning.

深度学习是当前大数据分析挖掘一个重要研究热点。巨量数据和超大网络规模使得采用并行分布式方法成为必然。然而，当前深度学习主流并行优化思想还处在以严格同步策略为基础、以矩阵计算优化、大粒度并行为手段的初级阶段，算法的效率和灵活性受到很大限制。为研究探索更高效的并行优化理论模型和方法，课题拟开展如下研究：1）深入研究分布式深度学习的弱同步策略及其理论基础，探索并行优化方法内在的基本规律和理论依据；2）研究多粒度融合的新的数据并行方法及分层弱同步策略，挖掘潜在的数据并行效能；3）研究参数模型并行中高频数据交换的流水线弱同步方法，突破数据交换的瓶颈；4）研究新的模型参数管理及维护模式，突破当前集中式参数服务模型的瓶颈，探索高效分布式参数管理方法及其在弱同步模式下的工作机制。本课题是对传统深度学习并行优化思想的一次突破，将为分布式深度学习提供更灵活高效的并行化策略及更强有力的理论支持。

结项摘要

本项目着重针对并行分布式深度学习系统中存在的同步策略效率偏低、资源利用率不高、数据组织粒度过大等若干科学问题，开展同步策略理论、并行分布式算法、模型维护与通信策略优化等方面的研究。具体包括：1）深入研究分布式深度学习的弱同步策略及其理论基础，探索并行优化方法内在的基本规律和理论依据，主要工作包括提出了分布式深度学习中基于组策略的弱一致性同步理论与方法，研究了基于陈旧补偿的参数梯度稀疏策略及近似理论模型，这些工作显著提高了分布式系统的训练效率。相关研究成果发表在CCGrid 2019, GPC 2020等会议上。另TOIT论文处于小修状态；2）研究多粒度融合的新的数据并行方法及高效的数据组织及内存管理方法，挖掘潜在的数据并行效能。主要工作包括提出了深度学习系统细粒度内存重用及优化方法，研究了基于空间复用的特征映射数据组织与内存管理机制、混合内存环境下深度学习数据预取策略等。显著提升了内存的利用率及对更多模型的支撑能力。相关工作发表在TACO 2019, PPoPP 2018, TACO 2018, ICCD 2019等会议和期刊上。其中TACO 2019的工作被该期刊主编推荐为期刊近期最值得关注的5篇论文工作之一；3）研究参数模型并行中高频数据交换策略及通信优化方法，突破数据交换的瓶颈，主要研究工作包括基于模型结构特性的混合通信优化方法、基于梯度参数特性的量化压缩优化传输方法、内存高效的分布式稀疏通信机制、基于固定比特数的梯度压缩及通信优化策略等，有效地降低了系统通信负载，提升了系统的性能；相关成果发表在APWeb 2020、GPC 2020等会议上；4）研究模型参数维护模式及并行分布式策略，探索高效参数管理及性能优化方法。主要工作包括细粒度模型参数维护模式及混合并行分布式方法、基于新型指令集的模型训练混合优化方法等。明显提升了众核系统的资源利用效率。相关成果发表在FGCS 2020、ICANN 2018等期刊和会议上。在此基础上，将上述研究成果和系统应用到了诸如医学图像分析等深度学习任务当中，取得了不错的效果。以上工作从多个层面突破了已有传统深度学习系统优化思想和方法存在的不足，为构建高效率、低损耗的分布式深度学习系统奠定了理论和实践基础。