分布式参数服务器架构的可扩展性研究

结题报告
项目介绍
AI项目解读

基本信息

  • 批准号:
    61802358
  • 项目类别:
    青年科学基金项目
  • 资助金额:
    25.0万
  • 负责人:
  • 依托单位:
  • 学科分类:
    F0202.系统软件、数据库与工业软件
  • 结题年份:
    2021
  • 批准年份:
    2018
  • 项目状态:
    已结题
  • 起止时间:
    2019-01-01 至2021-12-31

项目摘要

The distributed Parameter Server architecture has been widely adopted by the mainstream machine learning systems. However, due to the lack of agile scalability, it is challenging for this architecture to rapidly adapt to dynamic changes in workloads and resources such as computing power or network bandwidth, in heterogeneous environments, thus limiting the development of relevant technologies and applications that expect real-time responses. To this end, this project aims to: (1) design a software-defined Parameter Server architecture, decoupling the parameter exchange and the node management modules, and offering workload-aware elastic scalability; (2) formalize a general model capturing the tension between the parameter synchronization mechanisms and performance in heterogeneous environments, guiding the choice of those mechanisms with better performance; (3) propose a dynamic data compression mechanism aware of changes in resources and loads, striking the reasonable balance between the data compression rate and available resources and speeding up the parameter exchange. Based on these three studies, we further plan to design and implement a highly scalable prototype system that demonstrates all above claims, to meet the unprecedented demands of vast machine learning applications.
分布式参数服务器架构是主流机器学习系统所广泛采用的系统架构方式。在大数据-大计算的背景下,由于缺乏敏捷的可扩展性,该架构难以快速应对计算任务量突发改变和异构环境中计算资源与网络带宽动态变化等状况,严重制约了对实时性要求较高的相关技术和应用的发展。本项目拟:(1)设计基于软件定义的新参数服务器架构,解耦参数传递与节点管理等功能模块,实现对计算任务量变化感知的弹性可扩展性;(2)建立异构环境中参数同步机制与系统性能制约关系的一般模型,通过建模分析和对比实验的方法指导不同应用选择适配的性能最优的同步机制;(3)提出资源和负载感知的数据压缩机制,寻求压缩率与计算和带宽资源之间的动态平衡,避免计算资源竞争和过度压缩,提高参数交换速率;基于这三方面的研究,设计实现原型系统进行验证,冀显著提高分布式参数服务器架构的可扩展性,以满足日益增长的机器学习应用的实际需求。

结项摘要

为在大数据集上高效地训练深度学习模型,利用大规模GPU集群的并行计算能力和数据并行训练方式已成常态。在数据并行训练中,节点间通过参数服务器(PS)或Ring-allreduce等同步架构在每次迭代中交换大量梯度。然而,在GPU架构创新和专用领域编译技术蓬勃发展的推动下,快速增长的计算能力导致更频繁的梯度同步。因此,梯度同步和并行计算之间存在着矛盾,严重制约了分布式参数服务器等同步架构的可扩展性。为此,本项目的研究及主要成果包括:. 1. 研究了压缩感知的可扩展梯度同步架构。首先提出一个通用、可组合的梯度同步架构 CaSync,通过通信、聚合和压缩算子解耦和组合来实现压缩感知的梯度同步。其次,重叠和批量执行计算和通信任务,将通信开销隐藏在与压缩有关的计算中,反之亦然。CaSync还采用了一种选择性的梯度压缩和切分机制,以决定是否压缩每个梯度,以及如何切分大梯度。CaSync可与多种压缩算法和同步策略适配。. 2. 研究了梯度压缩算法的敏捷开发和集成。设计梯度压缩工具包CompLL,为面向GPU的压缩算法开发和面向深度学习框架的集成提供了便利。CompLL 提供了统一的 API 抽象和专用领域语言,并实现了高度优化的通用压缩算子库。CompLL将开发者的算法逻辑描述转换为高效的底层GPU实现代码,并自动集成到DNN系统中,几乎不需要人工干预。. 3. 研究了大图上图神经网络并行训练的数据加载问题。首先,提出静态缓存策略,将频繁访问的图数据保存在空闲GPU内存中,引入支持缓存的数据加载机制,避免从主机内存的重复加载。其次,将数据并行应用于基于采样的图神经网络训练,通过数据划分和多GPU缓存,改善数据局部性,增加缓存顶点的总数,消除并发情况下的数据加载瓶颈。. 4. 研究了面向智能计算的大数据存储问题。海量小文件的存取对于面向智能计算的分布式存储系统提出了新挑战。为此,设计高效元数据预取和管理机制、利用新型存储硬件、重构分布式存储系统,以满足智能应用低延迟高吞吐的存储需求。. 本项目在SOSP、FAST、VLDB、SC等权威学术会议和ACM TOS、IEEE TPDS等国际重要期刊上发表论文17篇,申请专利3项。项目负责人李诚获得2021年ACM ChinaSys新星奖和ACM中国新星提名奖。

项目成果

期刊论文数量(7)
专著数量(0)
科研奖励数量(6)
会议论文数量(10)
专利数量(3)
Towards Cost-Effective and Elastic Cloud Database Deployment via Memory Disaggregation
通过内存分解实现经济高效、弹性的云数据库部署
  • DOI:
    10.14778/3467861.3467877
  • 发表时间:
    2021-06
  • 期刊:
    Proc. VLDB Endow.
  • 影响因子:
    --
  • 作者:
    Zhang Yingqiang;Ruan Chaoyi;Li Cheng;Yang Xinjun;Cao Wei;Li Feifei;Wang Bo;Fang Jing;Wang Yuhui;Huo Jingze;Bi Chao
  • 通讯作者:
    Bi Chao
MTFC: A Multi-GPU Training Framework for Cube-CNN-based Hyperspectral Image Classification
MTFC:基于 Cube-CNN 的高光谱图像分类的多 GPU 训练框架
  • DOI:
    10.1109/tetc.2020.3016978
  • 发表时间:
    2020
  • 期刊:
    IEEE Transactions on Emerging Topics in Computing
  • 影响因子:
    5.9
  • 作者:
    Ye Lu;Kunpeng Xie;Guanbin Xu;Han Dong;Cheng Li;Tao Li
  • 通讯作者:
    Tao Li
Leveraging NVMe SSDs for Building a Fast, Cost-effective, LSM-tree-based KV Store
利用 NVMe SSD 构建快速、经济高效、基于 LSM 树的 KV 存储
  • DOI:
    10.1145/3480963
  • 发表时间:
    2021-11
  • 期刊:
    ACM Trans. Storage
  • 影响因子:
    --
  • 作者:
    Li Cheng;Chen Hao;Ruan Chaoyi;Ma Xiaosong;Xu Yinlong
  • 通讯作者:
    Xu Yinlong
Efficient Data Loader for Fast Sampling-Based GNN Training on Large Graphs
用于大图上基于快速采样的 GNN 训练的高效数据加载器
  • DOI:
    10.1109/tpds.2021.3065737
  • 发表时间:
    2021-10
  • 期刊:
    IEEE Transactions on Parallel and Distributed Systems
  • 影响因子:
    5.3
  • 作者:
    Bai Youhui;Li Cheng;Lin Zhiqi;Wu Yufei;Miao Youshan;Liu Yunxin;Xu Yinlong
  • 通讯作者:
    Xu Yinlong
vPipe: A Virtualized Acceleration System for Achieving Efficient and Scalable Pipeline Parallel DNN Training
vPipe:用于实现高效且可扩展的管道并行 DNN 训练的虚拟化加速系统
  • DOI:
    10.1109/tpds.2021.3094364
  • 发表时间:
    2022-03
  • 期刊:
    IEEE Transactions on Parallel and Distributed Systems
  • 影响因子:
    5.3
  • 作者:
    Zhao Shixiong;Li Fanxin;Chen Xusheng;Guan Xiuxian;Jiang Jianyu;Huang Dong;Qing Yuhao;Wang Sen;Wang Peng;Zhang Gong;Li Cheng;Luo Ping;Cui Heming
  • 通讯作者:
    Cui Heming

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi || "--"}}
  • 发表时间:
    {{ item.publish_year || "--" }}
  • 期刊:
    {{ item.journal_name }}
  • 影响因子:
    {{ item.factor || "--"}}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.authors }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.authors }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.authors }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.authors }}

数据更新时间:{{ patent.updateTime }}

其他文献

Star-Shaped Electron Acceptor based on Naphthalenediimide-Porphyrin for Non-Fullerene Organic Solar Cells
用于非富勒烯有机太阳能电池的基于萘二亚胺-卟啉的星形电子受体
  • DOI:
    10.3866/pku.whxb201709112
  • 发表时间:
    2018
  • 期刊:
    Acta Physico - Chimica Sinica
  • 影响因子:
    --
  • 作者:
    周士超;冯贵涛;夏冬冬;李诚;武永刚;李韦伟
  • 通讯作者:
    李韦伟
磷运筹和干旱胁迫对冬小麦农艺性状和品质性状的影响
  • DOI:
    10.7606/j.issn.1009-1041.2019.07.10
  • 发表时间:
    2019
  • 期刊:
    麦类作物学报
  • 影响因子:
    --
  • 作者:
    李诚;王晓丽;陈和平;张润琪;鲍艺丹;朱长安;李春艳
  • 通讯作者:
    李春艳
面向医学数据的分层剥离体绘制算法
  • DOI:
    --
  • 发表时间:
    --
  • 期刊:
    计算机辅助设计与图形学学报
  • 影响因子:
    --
  • 作者:
    黄鲜萍;蒋莉;梁荣华;谭国珍;李诚;吴福理
  • 通讯作者:
    吴福理
Strategy of Classification and Repairing for Hole of Incomplete Point Clouds Based on Fuzzy Inference
基于模糊推理的不完整点云空洞分类与修复策略
  • DOI:
    --
  • 发表时间:
    2016-11
  • 期刊:
    Journal of Computational and Theoretical Nanoscience
  • 影响因子:
    --
  • 作者:
    刘艳菊;王淼;张宏烈;李诚;刘彦忠
  • 通讯作者:
    刘彦忠
镉对铜绿微囊藻和斜生栅藻的毒性效应
  • DOI:
    --
  • 发表时间:
    2014
  • 期刊:
    中国环境科学
  • 影响因子:
    --
  • 作者:
    闫浩;夏文彤;李诚;张庭廷
  • 通讯作者:
    张庭廷

其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi || "--" }}
  • 发表时间:
    {{ item.publish_year || "--"}}
  • 期刊:
    {{ item.journal_name }}
  • 影响因子:
    {{ item.factor || "--" }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}
empty
内容获取失败,请点击重试
重试联系客服
title开始分析
查看分析示例
此项目为已结题,我已根据课题信息分析并撰写以下内容,帮您拓宽课题思路:

AI项目思路

AI技术路线图

相似国自然基金

{{ item.name }}
  • 批准号:
    {{ item.ratify_no }}
  • 批准年份:
    {{ item.approval_year }}
  • 资助金额:
    {{ item.support_num }}
  • 项目类别:
    {{ item.project_type }}

相似海外基金

{{ item.name }}
{{ item.translate_name }}
  • 批准号:
    {{ item.ratify_no }}
  • 财政年份:
    {{ item.approval_year }}
  • 资助金额:
    {{ item.support_num }}
  • 项目类别:
    {{ item.project_type }}
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了

AI项目解读示例

课题项目:调控A型流感病毒诱导IFN-β表达的机制研究

AI项目摘要:

本研究聚焦于TRIM2蛋白在A型流感病毒诱导的IFN-β表达中的调控机制。A型流感病毒是全球性健康问题,其感染可导致严重的呼吸道疾病。IFN-β作为关键的抗病毒因子,其表达水平对抗病毒防御至关重要。然而,TRIM2如何调控IFN-β的表达尚未明确。本研究假设TRIM2通过与病毒RNA或宿主因子相互作用,影响IFN-β的产生。我们将采用分子生物学、细胞生物学和免疫学方法,探索TRIM2与A型流感病毒诱导IFN-β表达的关系。预期结果将揭示TRIM2在抗病毒免疫反应中的作用,为开发新的抗病毒策略提供理论基础。该研究对理解宿主抗病毒机制具有重要科学意义,并可能对临床治疗流感病毒感染提供新的视角。

AI项目思路:

科学问题:TRIM2如何调控A型流感病毒诱导的IFN-β表达?
前期研究:已有研究表明TRIM2参与抗病毒反应,但其具体机制尚不明确。
研究创新点:本研究将深入探讨TRIM2在IFN-β表达中的直接作用机制。
技术路线:包括病毒学、分子生物学、细胞培养和免疫检测技术。
关键技术:TRIM2与病毒RNA的相互作用分析,IFN-β启动子活性检测。
实验模型:使用A型流感病毒感染的细胞模型进行研究。

AI技术路线图

        graph TD
          A[研究起始] --> B[文献回顾与假设提出]
          B --> C[实验设计与方法学准备]
          C --> D[A型流感病毒感染模型建立]
          D --> E[TRIM2与病毒RNA相互作用分析]
          E --> F[TRIM2对IFN-β启动子活性的影响]
          F --> G[IFN-β表达水平测定]
          G --> H[TRIM2功能丧失与获得研究]
          H --> I[数据收集与分析]
          I --> J[结果解释与科学验证]
          J --> K[研究结论与未来方向]
          K --> L[研究结束]
      
关闭
close
客服二维码