CIF: Small: Coding Techniques for Distributed Machine Learning

CIF:小型:分布式机器学习的编码技术

基本信息

  • 批准号:
    2101388
  • 负责人:
  • 金额:
    $ 37.23万
  • 依托单位:
  • 依托单位国家:
    美国
  • 项目类别:
    Standard Grant
  • 财政年份:
    2020
  • 资助国家:
    美国
  • 起止时间:
    2020-09-30 至 2022-09-30
  • 项目状态:
    已结题

项目摘要

Modern machine learning models have achieved great success and have been widely deployed across many sectors. As the size of data used to train machine learning models keeps growing, it is now routine to use distributed computing infrastructures such as the cloud. This strategy allows the computation of training to be distributed among a large number of nodes hosted in the cloud, where each node processes a partition of the whole data set. However, the performance of nodes in the cloud is often unreliable, due to system failures, resource contention, load imbalance, etc., and that unreliability can significantly delay the training process. This project pursues a coding-based framework that not only tolerates the effects of faulty nodes, but also further enhances the performance of machine learning training by dynamically taking advantage of the resources available on all nodes, whether they are faulty or not. The outcomes of this project should lead to a significant performance boost for distributed training of machine learning models.To enable the efficient use of distributed computing across unreliable infrastructure for training machine learning models from big data sets, the technical objectives of this project are divided into three levels. This project will first study coding theory for distributed matrix multiplication, a universal operation in various machine learning algorithms, and propose a coding framework with both fault tolerance and a significant performance boost. This framework will then be applied into parameter servers at the architecture level and deep neural networks at the model level, respectively. Combining these three parts, this work will lead to a practical coding framework that can efficiently scale out computation on heterogeneous unreliable nodes, where the coding schemes will be applied to distributed machine learning at different levels including fundamental arithmetic, architectures, and models.This award reflects NSF's statutory mission and has been deemed worthy of support through evaluation using the Foundation's intellectual merit and broader impacts review criteria.
现代机器学习模型取得了巨大成功,并已广泛应用于许多领域。随着用于训练机器学习模型的数据规模不断增长,使用云等分布式计算基础设施现在已成为惯例。该策略允许训练计算分布在云中托管的大量节点中,其中每个节点处理整个数据集的一部分。然而,由于系统故障、资源争用、负载不平衡等原因,云中节点的性能往往不可靠,并且这种不可靠性会显着延迟训练过程。该项目追求一种基于编码的框架,该框架不仅可以容忍故障节点的影响,而且还可以通过动态利用所有节点上的可用资源(无论故障与否)来进一步增强机器学习训练的性能。该项目的成果应该会显着提高机器学习模型的分布式训练的性能。为了能够跨不可靠的基础设施有效地使用分布式计算来训练来自大数据集的机器学习模型,该项目的技术目标分为三个级别。该项目将首先研究分布式矩阵乘法的编码理论,这是各种机器学习算法中的通用运算,并提出一种兼具容错性和显着性能提升的编码框架。然后,该框架将分别应用于架构级别的参数服务器和模型级别的深度神经网络。结合这三个部分,这项工作将产生一个实用的编码框架,可以有效地扩展异构不可靠节点上的计算,其中编码方案将应用于不同级别的分布式机器学习,包括基础算法、架构和模型。反映了 NSF 的法定使命,并通过使用基金会的智力价值和更广泛的影响审查标准进行评估,被认为值得支持。

项目成果

期刊论文数量(4)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
Coded Matrix Chain Multiplication
Local Re-encoding for Coded Matrix Multiplication
编码矩阵乘法的本地重新编码
Rook Coding for Batch Matrix Multiplication
  • DOI:
    10.1109/tcomm.2022.3165201
  • 发表时间:
    2022-06
  • 期刊:
  • 影响因子:
    8.3
  • 作者:
    Pedro Soto;Xiaodi Fan;Angel Saldivia;Jun Li
  • 通讯作者:
    Pedro Soto;Xiaodi Fan;Angel Saldivia;Jun Li
Lightweight Projective Derivative Codes for Compressed Asynchronous Gradient Descent
  • DOI:
  • 发表时间:
    2022-01
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Pedro Soto;Ilia Ilmer;Haibin Guan;Jun Li
  • 通讯作者:
    Pedro Soto;Ilia Ilmer;Haibin Guan;Jun Li
{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ patent.updateTime }}

Jun Li其他文献

Workers' Moral Economy and Collective Action by Laid-off Workers in China
我国工人道德经济与下岗工人集体行动
  • DOI:
    10.1080/15339114.2012.750800
  • 发表时间:
    2013
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Jun Li;J. Cheng
  • 通讯作者:
    J. Cheng
Preclinical Characterization of INCB 028050 Efficacious in Rodent Models of Arthritis : Selective Inhibition of JAK 1 and JAK 2 Is
INCB 028050 在啮齿动物关节炎模型中有效的临床前表征:选择性抑制 JAK 1 和 JAK 2
  • DOI:
  • 发表时间:
    2010
  • 期刊:
  • 影响因子:
    0
  • 作者:
    J. Fridman;P. Scherle;R. Collins;T. Burn;Yanlong Li;Jun Li;M. Covington;B. Thomas;P. Collier;M. Favata;X. Wen;Jack G. Shi;Ryan McGee;P. Haley;Stacey Shepard;J. Rodgers;S. Yeleswaram;G. Hollis;R. Newton;B. Metcalf;S. Friedman;K. Vaddi
  • 通讯作者:
    K. Vaddi
Controlled synthesis and characterizations of amphiphilic poly[(R,S)-3-hydroxybutyrate]-poly(ethylene glycol)-poly[(R,S)-3-hydroxybutyrate] triblock copolymers
两亲性聚[(R,S)-3-羟基丁酸酯]-聚(乙二醇)-聚[(R,S)-3-羟基丁酸酯]三嵌段共聚物的受控合成与表征
  • DOI:
  • 发表时间:
    2008
  • 期刊:
  • 影响因子:
    0
  • 作者:
    K. Liu;S. Goh;Jun Li
  • 通讯作者:
    Jun Li
Query-Efficient Hard-Label Black-Box Attacks Using Biased Sampling
使用偏差采样的查询高效硬标签黑盒攻击
Effects of tea polyphenols and tertiary butylhydroquinone on quality of palm oils and losses of endogenous vitamin E during batch frying and oxidative stability of fried instant noodles.
  • DOI:
    10.1016/j.fochx.2023.101049
  • 发表时间:
    2023-12-30
  • 期刊:
  • 影响因子:
    6.1
  • 作者:
    Jun Li;Fangbo Yuan;Jiayou Teng;Fang Li;Penghui Zhou;Yanlan Bi
  • 通讯作者:
    Yanlan Bi

Jun Li的其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

{{ truncateString('Jun Li', 18)}}的其他基金

Integrated Multiscale Computational and Experimental Investigations on Fracture of Additively Manufactured Polymer Composites
增材制造聚合物复合材料断裂的综合多尺度计算和实验研究
  • 批准号:
    2309845
  • 财政年份:
    2023
  • 资助金额:
    $ 37.23万
  • 项目类别:
    Standard Grant
Discovery Projects - Grant ID: DP210101100
发现项目 - 拨款 ID:DP210101100
  • 批准号:
    ARC : DP210101100
  • 财政年份:
    2021
  • 资助金额:
    $ 37.23万
  • 项目类别:
    Discovery Projects
Explore Electrocatalysis to Improve the Cathode Performance in Li-S Batteries
探索电催化提高锂硫电池正极性能
  • 批准号:
    2054754
  • 财政年份:
    2021
  • 资助金额:
    $ 37.23万
  • 项目类别:
    Standard Grant
Offline and Online Change-point Analysis for Large-scale Time Series Data
大规模时间序列数据的离线和在线变点分析
  • 批准号:
    1916239
  • 财政年份:
    2019
  • 资助金额:
    $ 37.23万
  • 项目类别:
    Continuing Grant
CIF: Small: Coding Techniques for Distributed Machine Learning
CIF:小型:分布式机器学习的编码技术
  • 批准号:
    1910447
  • 财政年份:
    2019
  • 资助金额:
    $ 37.23万
  • 项目类别:
    Standard Grant
A Novel Fuel Cell Catalyst and Support Architecture Based on Edge-site Pyridinic Nitrogen-Doping on Vertically Aligned Conical Carbon Nanofibers
基于垂直排列锥形碳纳米纤维边缘位吡啶氮掺杂的新型燃料电池催化剂和支撑结构
  • 批准号:
    1703263
  • 财政年份:
    2017
  • 资助金额:
    $ 37.23万
  • 项目类别:
    Standard Grant
SUSCHEM: Exploring Specific Heating in Microwave-assisted Synthesis of Hierarchical Hybrid Nanomaterials for Future Sustainable Batteries
SUSCHEM:探索微波辅助合成未来可持续电池的分层混合纳米材料中的比热
  • 批准号:
    1707585
  • 财政年份:
    2017
  • 资助金额:
    $ 37.23万
  • 项目类别:
    Standard Grant
CAREER: Genetic and Molecular Mechanisms of Parasite Infection in Insects
职业:昆虫寄生虫感染的遗传和分子机制
  • 批准号:
    1742644
  • 财政年份:
    2017
  • 资助金额:
    $ 37.23万
  • 项目类别:
    Continuing Grant
TWC: Medium: Collaborative: Online Social Network Fraud and Attack Research and Identification
TWC:媒介:协作:在线社交网络欺诈和攻击研究与识别
  • 批准号:
    1564348
  • 财政年份:
    2016
  • 资助金额:
    $ 37.23万
  • 项目类别:
    Standard Grant
CAREER: Genetic and Molecular Mechanisms of Parasite Infection in Insects
职业:昆虫寄生虫感染的遗传和分子机制
  • 批准号:
    1453287
  • 财政年份:
    2015
  • 资助金额:
    $ 37.23万
  • 项目类别:
    Continuing Grant

相似国自然基金

tRNA来源的新型非编码小RNA调控成骨分化的作用机制研究
  • 批准号:
    82360177
  • 批准年份:
    2023
  • 资助金额:
    32 万元
  • 项目类别:
    地区科学基金项目
CircFBXO7编码小肽调控合并糖尿病的下肢动脉硬化闭塞症血管内皮细胞铁死亡的机制探索
  • 批准号:
    82300554
  • 批准年份:
    2023
  • 资助金额:
    30 万元
  • 项目类别:
    青年科学基金项目
基于自编码深度学习的空心涡轮叶盘高维小失效可靠性设计优化研究
  • 批准号:
    12302156
  • 批准年份:
    2023
  • 资助金额:
    30 万元
  • 项目类别:
    青年科学基金项目
长非编码RNA-MOS介导SMAD3蛋白O-GlcNAc糖基化修饰促进非小细胞肺癌转移的机制研究
  • 批准号:
    82373007
  • 批准年份:
    2023
  • 资助金额:
    49 万元
  • 项目类别:
    面上项目
基于翻译组学理论探究LncRNA H19编码多肽PELRM促进小胶质细胞活化介导电针巨刺改善膝关节术后疼痛的机制研究
  • 批准号:
    82305399
  • 批准年份:
    2023
  • 资助金额:
    30 万元
  • 项目类别:
    青年科学基金项目

相似海外基金

Collaborative Research: CIF: Small: Maximizing Coding Gain in Coded Computing
协作研究:CIF:小型:最大化编码计算中的编码增益
  • 批准号:
    2327509
  • 财政年份:
    2023
  • 资助金额:
    $ 37.23万
  • 项目类别:
    Standard Grant
Collaborative Research: CIF: Small: Theory for Learning Lossless and Lossy Coding
协作研究:CIF:小型:学习无损和有损编码的理论
  • 批准号:
    2324396
  • 财政年份:
    2023
  • 资助金额:
    $ 37.23万
  • 项目类别:
    Standard Grant
Collaborative Research: CIF: Small: Maximizing Coding Gain in Coded Computing
协作研究:CIF:小型:最大化编码计算中的编码增益
  • 批准号:
    2327510
  • 财政年份:
    2023
  • 资助金额:
    $ 37.23万
  • 项目类别:
    Standard Grant
Collaborative Research: CIF: Small: Theory for Learning Lossless and Lossy Coding
协作研究:CIF:小型:学习无损和有损编码的理论
  • 批准号:
    2324397
  • 财政年份:
    2023
  • 资助金额:
    $ 37.23万
  • 项目类别:
    Standard Grant
CIF: Small: Fundamental Communication Latency Limits Beyond the Traditional Block-Coding Architecture
CIF:小:超越传统块编码架构的基本通信延迟限制
  • 批准号:
    2309887
  • 财政年份:
    2023
  • 资助金额:
    $ 37.23万
  • 项目类别:
    Standard Grant
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了