SHF: Small: Expediting the Execution of Machine Learning Applications on Multi-GPU Infrastructure with Architecture Awareness and Runtime Support
SHF:小型:通过架构意识和运行时支持加快多 GPU 基础设施上机器学习应用程序的执行
基本信息
- 批准号:2154973
- 负责人:
- 金额:$ 59.99万
- 依托单位:
- 依托单位国家:美国
- 项目类别:Standard Grant
- 财政年份:2022
- 资助国家:美国
- 起止时间:2022-06-15 至 2025-05-31
- 项目状态:未结题
- 来源:
- 关键词:
项目摘要
Deep Neural Networks (DNNs) have become one of the most popular machine-learning techniques for solving real-world problems in object classification, autonomous vehicles, natural language processing, etc. Due to the ever-growing problem size and complexity, the training and inference of DNN models are increasingly time-consuming and require enormous computing resources. As such, multi-GPU infrastructure is a desirable platform that has been widely used in modern DNN tasks. However, the delivered DNN execution scalability is severely limited due to architectural unawareness and lacking easy-to-use runtime support. This research uncovers and addresses the architectural bottlenecks of DNN executions. The outcome of this research is expected to achieve scalable DNN executions on multi-GPU infrastructure. The educational and outreach components of this project include (i) new course projects on multi-GPU infrastructure integrated into graduate-level computer architecture courses; (ii) engaging undergraduate students in the research activities through senior Capstone project courses and an outreach program at PI’s institute; and (iii) increasing the participation and visibility of female and minority students in computer architecture, computer science, and engineering.This research is set to uncover and address the architectural bottlenecks of DNN executions on multi-GPUs. Specifically: 1) It identifies address translation as an essential bottleneck in multi-GPU performance. It redesigns the Translation Lookaside Buffer (TLB) hierarchy and the page table walk for both single-tenant and multi-tenant DNN executions on multi-GPU infrastructure. 2) It investigates the data-movement overheads in data parallelism and model parallelism of modern DNN applications. It proposes architecture-aware data distillation and neuron-based model partitioning to mitigate the data movement overheads. 3) It proposes a runtime framework that fosters the usage of multi-GPUs through enhanced programmability, which allows dynamic and automatic virtual kernel to physical kernel generation during execution.This award reflects NSF's statutory mission and has been deemed worthy of support through evaluation using the Foundation's intellectual merit and broader impacts review criteria.
深度神经网络 (DNN) 已成为最流行的机器学习技术之一,用于解决对象分类、自动驾驶车辆、自然语言处理等领域的现实问题。由于问题规模和复杂性不断增长,训练和DNN 模型的推理越来越耗时,并且需要大量的计算资源,因此,多 GPU 基础设施是广泛用于现代 DNN 任务的理想平台,但由于架构意识不足,所提供的 DNN 执行可扩展性受到严重限制。并且缺乏易于使用的运行时支持。这项研究揭示并解决了 DNN 执行的架构瓶颈。该研究的成果预计将在多 GPU 基础设施上实现可扩展的 DNN 执行。将多 GPU 基础设施的新课程项目整合到研究生级别的计算机架构课程中;(ii) 通过高级 Capstone 项目课程和 PI 研究所的外展计划让本科生参与研究活动;以及 (iii) 提高女性和这项研究旨在揭示并解决多 GPU 上 DNN 执行的架构瓶颈:1) 它将地址转换确定为多 GPU 重新设计的一个重要瓶颈。多 GPU 基础设施上单租户和多租户 DNN 执行的转换后备缓冲区 (TLB) 层次结构和页表遍历 2) 它研究数据中的数据移动开销。现代 DNN 应用程序的并行性和模型并行性。它提出了架构感知数据蒸馏和基于神经元的模型分区,以减轻数据移动开销。 3) 它提出了一个运行时框架,通过增强的可编程性促进多 GPU 的使用。该奖项反映了 NSF 的法定使命,并通过使用基金会的智力优点和更广泛的影响审查标准进行评估,被认为值得支持。
项目成果
期刊论文数量(7)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
SmartFRZ: An Efficient Training Framework using Attention-Based Layer Freezing
- DOI:10.48550/arxiv.2401.16720
- 发表时间:2024-01
- 期刊:
- 影响因子:0
- 作者:Sheng Li;Geng Yuan;Yuezhen Dai;Youtao Zhang;Yanzhi Wang;Xulong Tang
- 通讯作者:Sheng Li;Geng Yuan;Yuezhen Dai;Youtao Zhang;Yanzhi Wang;Xulong Tang
Adversarial Prefetch: New Cross-Core Cache Side Channel Attacks
- DOI:10.1109/sp46214.2022.9833692
- 发表时间:2021-10
- 期刊:
- 影响因子:0
- 作者:Yanan Guo;Andrew Zigerelli;Youtao Zhang;Jun Yang
- 通讯作者:Yanan Guo;Andrew Zigerelli;Youtao Zhang;Jun Yang
Trans-FW: Short Circuiting Page Table Walk in Multi-GPU Systems via Remote Forwarding
- DOI:10.1109/hpca56546.2023.10071054
- 发表时间:2023-02
- 期刊:
- 影响因子:0
- 作者:Bingyao Li;Jieming Yin;Anup Holey;Youtao Zhang;Jun Yang;Xulong Tang
- 通讯作者:Bingyao Li;Jieming Yin;Anup Holey;Youtao Zhang;Jun Yang;Xulong Tang
AB-ORAM: Constructing Adjustable Buckets for Space Reduction in Ring ORAM
- DOI:10.1109/hpca56546.2023.10071064
- 发表时间:2023-02
- 期刊:
- 影响因子:0
- 作者:Mehrnoosh Raoufi;Jun Yang;Xulong Tang;Youtao Zhang
- 通讯作者:Mehrnoosh Raoufi;Jun Yang;Xulong Tang;Youtao Zhang
CEGMA: Coordinated Elastic Graph Matching Acceleration for Graph Matching Networks
- DOI:10.1109/hpca56546.2023.10070956
- 发表时间:2023-02
- 期刊:
- 影响因子:0
- 作者:Yuezhen Dai;Youtao Zhang;Xulong Tang
- 通讯作者:Yuezhen Dai;Youtao Zhang;Xulong Tang
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
数据更新时间:{{ journalArticles.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ monograph.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ sciAawards.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ conferencePapers.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ patent.updateTime }}
Xulong Tang其他文献
Improving Multi-Instance GPU Efficiency via Sub-Entry Sharing TLB Design
通过子条目共享TLB设计提高多实例GPU效率
- DOI:
10.48550/arxiv.2404.18361 - 发表时间:
2024 - 期刊:
- 影响因子:0
- 作者:
Bingyao Li;Yueqi Wang;Tianyu Wang;L. Eeckhout;Jun Yang;A. Jaleel;Xulong Tang - 通讯作者:
Xulong Tang
Optimizing off-chip accesses in multicores
优化多核中的片外访问
- DOI:
- 发表时间:
2015 - 期刊:
- 影响因子:0
- 作者:
W. Ding;Xulong Tang;M. Kandemir;Yuanrui Zhang;Emre Kultursay - 通讯作者:
Emre Kultursay
Algorithm-hardware Co-design of Attention Mechanism on FPGA Devices
FPGA器件上注意力机制的算法-硬件协同设计
- DOI:
10.1145/3477002 - 发表时间:
2021 - 期刊:
- 影响因子:0
- 作者:
Xinyi Zhang;Yawen Wu;Peipei Zhou;Xulong Tang;Jingtong Hu - 通讯作者:
Jingtong Hu
Architecture-Aware Approximate Computing
架构感知近似计算
- DOI:
- 发表时间:
2019 - 期刊:
- 影响因子:0
- 作者:
Mustafa Karaköy;Orhan Kislal;Xulong Tang;M. Kandemir;Meenakshi Arunachalam - 通讯作者:
Meenakshi Arunachalam
Orchestrated Scheduling and Partitioning for Improved Address Translation in GPUs
精心安排的调度和分区以改进 GPU 中的地址转换
- DOI:
10.1109/dac56929.2023.10247943 - 发表时间:
2023 - 期刊:
- 影响因子:0
- 作者:
Bingyao Li;Yueqi Wang;Xulong Tang - 通讯作者:
Xulong Tang
Xulong Tang的其他文献
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
{{ truncateString('Xulong Tang', 18)}}的其他基金
Collaborative Research: CSR: Small: Expediting Continual Online Learning on Edge Platforms through Software-Hardware Co-designs
协作研究:企业社会责任:小型:通过软硬件协同设计加快边缘平台上的持续在线学习
- 批准号:
2312157 - 财政年份:2023
- 资助金额:
$ 59.99万 - 项目类别:
Standard Grant
相似国自然基金
单细胞分辨率下的石杉碱甲介导小胶质细胞极化表型抗缺血性脑卒中的机制研究
- 批准号:82304883
- 批准年份:2023
- 资助金额:30 万元
- 项目类别:青年科学基金项目
小分子无半胱氨酸蛋白调控生防真菌杀虫活性的作用与机理
- 批准号:32372613
- 批准年份:2023
- 资助金额:50 万元
- 项目类别:面上项目
诊疗一体化PS-Hc@MB协同训练介导脑小血管病康复的作用及机制研究
- 批准号:82372561
- 批准年份:2023
- 资助金额:49 万元
- 项目类别:面上项目
非小细胞肺癌MECOM/HBB通路介导血红素代谢异常并抑制肿瘤起始细胞铁死亡的机制研究
- 批准号:82373082
- 批准年份:2023
- 资助金额:49 万元
- 项目类别:面上项目
FATP2/HILPDA/SLC7A11轴介导肿瘤相关中性粒细胞脂代谢重编程影响非小细胞肺癌放疗免疫的作用和机制研究
- 批准号:82373304
- 批准年份:2023
- 资助金额:49 万元
- 项目类别:面上项目
相似海外基金
NSF Convergence Accelerator Track K: Water for Small And Very Small Systems (WaterSAVerS) - A Convergence Framework for Expediting Equitable Water Systems Deployment
NSF 融合加速器轨道 K:小型和超小型系统的水 (WaterSAVerS) - 加快公平水系统部署的融合框架
- 批准号:
2344374 - 财政年份:2024
- 资助金额:
$ 59.99万 - 项目类别:
Standard Grant
Collaborative Research: CSR: Small: Expediting Continual Online Learning on Edge Platforms through Software-Hardware Co-designs
协作研究:企业社会责任:小型:通过软硬件协同设计加快边缘平台上的持续在线学习
- 批准号:
2312157 - 财政年份:2023
- 资助金额:
$ 59.99万 - 项目类别:
Standard Grant
Collaborative Research: CSR: Small: Expediting Continual Online Learning on Edge Platforms through Software-Hardware Co-designs
协作研究:企业社会责任:小型:通过软硬件协同设计加快边缘平台上的持续在线学习
- 批准号:
2312158 - 财政年份:2023
- 资助金额:
$ 59.99万 - 项目类别:
Standard Grant
高等植物細胞における局所的な細胞壁修飾に関わる小胞輸送に関する研究
高等植物细胞局部细胞壁修饰相关的囊泡运输研究
- 批准号:
14740454 - 财政年份:2002
- 资助金额:
$ 59.99万 - 项目类别:
Grant-in-Aid for Young Scientists (B)
Fundamental Study on Micro-Actuator Utilizing Rapid Boiling
利用快速沸腾的微执行器的基础研究
- 批准号:
08455104 - 财政年份:1996
- 资助金额:
$ 59.99万 - 项目类别:
Grant-in-Aid for Scientific Research (B)