CRII: OAC: High-Efficiency Serverless Computing Systems for Deep Learning: A Hybrid CPU/GPU Architecture

CRII:OAC:用于深度学习的高效无服务器计算系统:混合 CPU/GPU 架构

基本信息

  • 批准号:
    2153502
  • 负责人:
  • 金额:
    $ 17.49万
  • 依托单位:
  • 依托单位国家:
    美国
  • 项目类别:
    Standard Grant
  • 财政年份:
    2022
  • 资助国家:
    美国
  • 起止时间:
    2022-05-01 至 2025-04-30
  • 项目状态:
    未结题

项目摘要

This award is funded in whole or in part under the American Rescue Plan Act of 2021 (Public Law 117-2).Next-generation serverless cloud computing provides developers with simplified access to server management and administration, including event-driven execution, fine-grained resource provisioning, auto-scaling, and pay-as-you-go billing. The machine learning community is taking advantage of these benefits of serverless cloud computing to ease the development and deployment of deep learning (DL) applications. However, existing serverless computing platforms lack efficient support for GPUs, impeding DL practitioners from utilizing serverless computing for large-scale applications. This project will develop an efficient serverless computing platform with a hybrid CPU/GPU architecture to accelerate DL application development and deployment. The goal is to advance cutting-edge methodologies in both deep learning and serverless computing, which will result in a significant leap forward to benefit DL practitioners, DL users, and providers of cloud computing infrastructures, contributing to science advancement for society. The research findings will also enhance undergraduate and graduate education with exciting examples and demonstrations of real-world systems at the intersection of distributed computing, cloud computing, and deep learning.The project will develop a novel serverless computing platform with a hybrid CPU/GPU architecture that will provide DL applications with native GPU performance. Two core components constitute the hybrid serverless computing architecture, a shim virtualized GPU (vGPU) layer and a refactored container subsystem. The shim vGPU layer enables high-performance GPU sharing for concurrent serverless functions with low latency and high scalability. This layer provides fine-grained GPU resource provisioning and performance isolation by intercepting GPU calls from serverless functions using API remoting techniques. The vGPU layer optimizes GPU performance in serverless computing via GPU context caching and locality-aware scheduling to mitigate cold-starts and unnecessary data movement. The container subsystem accelerates the entire DL lifecycle by exploiting DL model structures and pipelined model loading to parallelize CPU-to-GPU memory copy and model execution. The subsystem exploits model partitioning techniques to accelerate the hybrid CPU/GPU architecture by dynamically distributing the DL model partitions to CPU and GPU. The scientific knowledge and tools designed and implemented from this research project will provide and enable innovations for next-generation cloud computing and deep learning.This award reflects NSF's statutory mission and has been deemed worthy of support through evaluation using the Foundation's intellectual merit and broader impacts review criteria.
该奖项的全部或部分资金来源于《2021 年美国救援计划法案》(公法 117-2)。下一代无服务器云计算为开发人员提供了对服务器管理和管理的简化访问,包括事件驱动执行、精细化粒度资源配置、自动扩展和按量付费计费。机器学习社区正在利用无服务器云计算的这些优势来简化深度学习 (DL) 应用程序的开发和部署。然而,现有的无服务器计算平台缺乏对GPU的有效支持,阻碍了深度学习从业者利用无服务器计算进行大规模应用。该项目将开发一个具有混合CPU/GPU架构的高效无服务器计算平台,以加速DL应用程序的开发和部署。其目标是推进深度学习和无服务器计算领域的前沿方法,这将带来重大飞跃,使深度学习从业者、深度学习用户和云计算基础设施提供商受益,为社会的科学进步做出贡献。研究结果还将通过分布式计算、云计算和深度学习交叉领域的真实世界系统的令人兴奋的示例和演示来加强本科生和研究生教育。该项目将开发一种具有混合 CPU/GPU 架构的新型无服务器计算平台这将为深度学习应用程序提供原生 GPU 性能。混合无服务器计算架构由两个核心组件组成:shim 虚拟化 GPU (vGPU) 层和重构的容器子系统。 shim vGPU 层支持并发无服务器功能的高性能 GPU 共享,具有低延迟和高可扩展性。该层通过使用 API 远程处理技术拦截来自无服务器函数的 GPU 调用,提供细粒度的 GPU 资源配置和性能隔离。 vGPU 层通过 GPU 上下文缓存和位置感知调度来优化无服务器计算中的 GPU 性能,以减少冷启动和不必要的数据移动。容器子系统通过利用深度学习模型结构和流水线模型加载来并行化 CPU 到 GPU 内存复制和模型执行,从而加速整个深度学习生命周期。该子系统利用模型分区技术,通过动态地将深度学习模型分区分配给 CPU 和 GPU 来加速混合 CPU/GPU 架构。该研究项目设计和实施的科学知识和工具将为下一代云计算和深度学习提供并实现创新。该奖项反映了 NSF 的法定使命,并通过利用基金会的智力优势和更广泛的影响进行评估,认为值得支持审查标准。

项目成果

期刊论文数量(2)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
Libra: Harvesting Idle Resources Safely and Timely in Serverless Clusters
Accelerating Serverless Computing by Harvesting Idle Resources
通过收集闲置资源加速无服务器计算
{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ patent.updateTime }}

Hao Wang其他文献

Melanophilin accelerates insulin granule fusion without stable docking to the plasma membrane via interaction with myosin-Va and syntaxin-4.
亲黑素通过与肌球蛋白-Va 和突触蛋白-4 相互作用,加速胰岛素颗粒融合,而无需与质膜稳定对接。
  • DOI:
  • 发表时间:
    2019
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Tetsuro Izumi; Kouichi Mizuno; Katsuhide Okunishi;Hao Wang
  • 通讯作者:
    Hao Wang
A new data fusion model for generating high spatial and temporal resolution images
用于生成高空间和时间分辨率图像的新数据融合模型
Surface Plasmon Polaritons and Visible Light Coupling via Photorefractive Phase Gratings in Indium Tin Oxide Coated Iron-doped LiNbO3 Crystal Slabs
氧化铟锡涂层铁掺杂 LiNbO3 晶体板中光折变相位光栅的表面等离子体激元和可见光耦合
  • DOI:
    10.1364/fio.2014.ftu1e.2
  • 发表时间:
    2014-10-19
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Hao Wang;Hua Zhao;Guangwei Hu;Jingwen Zhang
  • 通讯作者:
    Jingwen Zhang
Dynamic breakup of Janus droplet in a bifurcating microchannel
分叉微通道中 Janus 液滴的动态破碎
  • DOI:
    10.1103/physrevfluids.9.064203
  • 发表时间:
    2024-06-11
  • 期刊:
  • 影响因子:
    2.7
  • 作者:
    Hao Wang;Shiteng Wang;Yao Mu;Qing Han;Yi Cheng
  • 通讯作者:
    Yi Cheng
Isolation and bioinformatic analysis of a novel transposable element, ISCbe4, from the hyperthermophilic bacterium, Caldicellulosiruptor bescii
来自超嗜热细菌 Caldicellulosiruptor bescii 的新型转座元件 ISCbe4 的分离和生物信息学分析

Hao Wang的其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

{{ truncateString('Hao Wang', 18)}}的其他基金

RII Track-4:NSF: Federated Analytics Systems with Fine-grained Knowledge Comprehension: Achieving Accuracy with Privacy
RII Track-4:NSF:具有细粒度知识理解的联合分析系统:通过隐私实现准确性
  • 批准号:
    2327480
  • 财政年份:
    2024
  • 资助金额:
    $ 17.49万
  • 项目类别:
    Standard Grant
RII Track-4:NSF: Federated Analytics Systems with Fine-grained Knowledge Comprehension: Achieving Accuracy with Privacy
RII Track-4:NSF:具有细粒度知识理解的联合分析系统:通过隐私实现准确性
  • 批准号:
    2327480
  • 财政年份:
    2024
  • 资助金额:
    $ 17.49万
  • 项目类别:
    Standard Grant
Collaborative Research: OAC: Core: Harvesting Idle Resources Safely and Timely for Large-scale AI Applications in High-Performance Computing Systems
合作研究:OAC:核心:安全及时地收集闲置资源,用于高性能计算系统中的大规模人工智能应用
  • 批准号:
    2403398
  • 财政年份:
    2024
  • 资助金额:
    $ 17.49万
  • 项目类别:
    Standard Grant
Collaborative Research: SaTC: CORE: Small: Critical Learning Periods Augmented Robust Federated Learning
协作研究:SaTC:核心:小型:关键学习期增强鲁棒联邦学习
  • 批准号:
    2315612
  • 财政年份:
    2023
  • 资助金额:
    $ 17.49万
  • 项目类别:
    Standard Grant
RI: Small: Enabling Interpretable AI via Bayesian Deep Learning
RI:小型:通过贝叶斯深度学习实现可解释的人工智能
  • 批准号:
    2127918
  • 财政年份:
    2021
  • 资助金额:
    $ 17.49万
  • 项目类别:
    Continuing Grant
RI: Small: Enabling Interpretable AI via Bayesian Deep Learning
RI:小型:通过贝叶斯深度学习实现可解释的人工智能
  • 批准号:
    2127918
  • 财政年份:
    2021
  • 资助金额:
    $ 17.49万
  • 项目类别:
    Continuing Grant
US-China planning visit: Development of High Performance and Multifunctional Infrastructure Material
中美计划访问:高性能多功能基础设施材料的开发
  • 批准号:
    1338297
  • 财政年份:
    2013
  • 资助金额:
    $ 17.49万
  • 项目类别:
    Standard Grant
SBIR Phase II: SAFE: Behavior-based Malware Detection and Prevention
SBIR 第二阶段:SAFE:基于行为的恶意软件检测和预防
  • 批准号:
    0750299
  • 财政年份:
    2008
  • 资助金额:
    $ 17.49万
  • 项目类别:
    Standard Grant
SBIR Phase I: SpiderWeb - Self-Healing Networks for Spyware Detection
SBIR 第一阶段:SpiderWeb - 用于间谍软件检测的自我修复网络
  • 批准号:
    0638170
  • 财政年份:
    2007
  • 资助金额:
    $ 17.49万
  • 项目类别:
    Standard Grant
Constructibility and Large Cardinal Numbers
可构造性和大基数
  • 批准号:
    7902941
  • 财政年份:
    1979
  • 资助金额:
    $ 17.49万
  • 项目类别:
    Standard Grant

相似国自然基金

Z8-12:OH和Z8-14:OAc分别维持梨小食心虫和李小食心虫性诱剂特异性的分子基础
  • 批准号:
  • 批准年份:
    2021
  • 资助金额:
    35 万元
  • 项目类别:
    地区科学基金项目
亚硝酰钌配合物[Ru(OAc)(2mqn)2NO]的光异构反应机理研究
  • 批准号:
    21603131
  • 批准年份:
    2016
  • 资助金额:
    19.0 万元
  • 项目类别:
    青年科学基金项目
机械化学条件下Mn(OAc)3促进的自由基串联反应研究
  • 批准号:
    21242013
  • 批准年份:
    2012
  • 资助金额:
    10.0 万元
  • 项目类别:
    专项基金项目

相似海外基金

OAC Core: Cost-Adaptive Monitoring and Real-Time Tuning at Function-Level
OAC核心:功能级成本自适应监控和实时调优
  • 批准号:
    2402542
  • 财政年份:
    2024
  • 资助金额:
    $ 17.49万
  • 项目类别:
    Standard Grant
Collaborative Research: OAC Core: CropDL - Scheduling and Checkpoint/Restart Support for Deep Learning Applications on HPC Clusters
合作研究:OAC 核心:CropDL - HPC 集群上深度学习应用的调度和检查点/重启支持
  • 批准号:
    2403088
  • 财政年份:
    2024
  • 资助金额:
    $ 17.49万
  • 项目类别:
    Standard Grant
Collaborative Research: OAC Core: CropDL - Scheduling and Checkpoint/Restart Support for Deep Learning Applications on HPC Clusters
合作研究:OAC 核心:CropDL - HPC 集群上深度学习应用的调度和检查点/重启支持
  • 批准号:
    2403090
  • 财政年份:
    2024
  • 资助金额:
    $ 17.49万
  • 项目类别:
    Standard Grant
Collaborative Research: OAC Core: Distributed Graph Learning Cyberinfrastructure for Large-scale Spatiotemporal Prediction
合作研究:OAC Core:用于大规模时空预测的分布式图学习网络基础设施
  • 批准号:
    2403313
  • 财政年份:
    2024
  • 资助金额:
    $ 17.49万
  • 项目类别:
    Standard Grant
Collaborative Research: OAC Core: Large-Scale Spatial Machine Learning for 3D Surface Topology in Hydrological Applications
合作研究:OAC 核心:水文应用中 3D 表面拓扑的大规模空间机器学习
  • 批准号:
    2414185
  • 财政年份:
    2024
  • 资助金额:
    $ 17.49万
  • 项目类别:
    Standard Grant
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了