CAREER: Efficient and Scalable Large Foundational Model Training on Supercomputers for Science

职业:科学超级计算机上高效且可扩展的大型基础模型训练

基本信息

  • 批准号:
    2340011
  • 负责人:
  • 金额:
    $ 59.97万
  • 依托单位:
  • 依托单位国家:
    美国
  • 项目类别:
    Standard Grant
  • 财政年份:
    2024
  • 资助国家:
    美国
  • 起止时间:
    2024-07-01 至 2029-06-30
  • 项目状态:
    未结题

项目摘要

Deep learning (DL) methods, especially the large foundational models, enable exciting new approaches to problems in many science and engineering disciplines, such as genomics, bioinformatics, meteorology, and natural language processing. Training foundational models at extreme scales is time-consuming, prone to low utilization with limited scalability, and human-effort demanding. This NSF CAREER project addresses the convergence, performance, and scalability gaps of large foundational model pre-training on supercomputers with innovative algorithms, systems, and interface design. In addition to the algorithm and computer system innovation, this project contributes to translational computer science by lowering the barrier of sizeable foundational model training and the time consumption of scientific deep learning, thus enabling significantly more scientific research to embrace large foundational models. The research results will be publicly available as open-source software to the broader community, with comprehensive documentation on the design and usage to help users from all domains.Technically, this NSF CAREER project has four research and educational thrusts: The first thrust focuses on new optimization techniques such as first-, second-, and mixed-order optimizers with potential approximation techniques to enhance time-to-convergence. The second thrust aims to enhance the scaling efficiency by designing novel sparsification algorithms that leverage the spatial and temporal patterns of gradients. The third thrust considers a new complex parallelism abstraction that transparently deploys large models across processors with near-optimal performance given the present capability of compute, interconnect, and I/O on a supercomputer. The fourth thrust designs educational activities, including a distributed DL system course, a DL tutorial, and a DL bootcamp targeting students and practitioners with different levels of expertise.This award reflects NSF's statutory mission and has been deemed worthy of support through evaluation using the Foundation's intellectual merit and broader impacts review criteria.
深度学习(DL)方法,尤其是大型基础模型,为许多科学和工程学科的问题提供了令人兴奋的新方法,例如基因组学,生物信息学,气象学和自然语言处理。极端尺度上的训练基础模型耗时,可伸缩性有限,易于使用人力,并要求人力胜任。这个NSF职业项目介绍了具有创新算法,系统和界面设计的超级计算机预培训的大型基础模型的融合,性能和可伸缩性差距。除了算法和计算机系统创新外,该项目还通过降低了较大的基础模型培训的障碍和科学深度学习的时光,从而有助于转化计算机科学,从而实现了更大的科学研究,以采用大型基础模型。该研究结果将作为开源软件公开提供给更广泛的社区,并提供有关设计和用法的全面文档,以帮助来自所有领域的用户。技术上,该NSF职业项目具有四个研究和教育性的推力:第一个推力集中在新的优化技术上,例如第一,第二,第二,第二和混合级优化的近似近似时间,以增强近似时间来增强时间效果。第二个推力旨在通过设计利用梯度的空间和时间模式的新型稀疏算法来提高缩放效率。第三个推力考虑了一种新的复杂并行性抽象,鉴于当前的计算,互连和I/O在超级计算机上的当前功能,透明地在处理器上透明地部署了大型模型。第四个推力设计教育活动,包括分布式DL系统课程,DL教程以及DL训练营的目标,以不同水平的专业知识的学生和从业人员进行针对的学生和从业人员。该奖项反映了NSF的法定任务,并被认为是值得通过基金会的知识分子和更广泛影响的评估来通过评估来获得支持的。

项目成果

期刊论文数量(0)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ patent.updateTime }}

Zhao Zhang其他文献

Probe-Type Microforce Sensor for Mirco/Nano Experimental Mechanics
用于微/纳米实验力学的探针式微力传感器
  • DOI:
    10.4028/www.scientific.net/amr.33-37.943
  • 发表时间:
    2008-03
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Xide Li;Zhao Zhang
  • 通讯作者:
    Zhao Zhang
3D trajectory tracking control of an underactuated AUV based on adaptive neural network dynamic surface
基于自适应神经网络动态面的欠驱动AUV 3D轨迹跟踪控制
Uncertainty analysis and robust design optimization for the heat-assisted bending of high-strength titanium tube
高强钛管热辅助弯曲的不确定性分析与鲁棒设计优化
Tunable erbium-doped fiber ring laser based on an all-fiber filter
基于全光纤滤波器的可调谐掺铒光纤环形激光器
  • DOI:
    10.1117/12.2000105
  • 发表时间:
    2012
  • 期刊:
  • 影响因子:
    0
  • 作者:
    X. Ji;Z. Cao;Zhao Zhang;Tao Shui;Wenliang Hao;B. Yu
  • 通讯作者:
    B. Yu
An efficient and convenient formal synthesis of Jaspine B from D-xylose.
由 D-木糖高效、便捷地正式合成 Jaspine B。
  • DOI:
    10.1016/j.carres.2012.01.013
  • 发表时间:
    2012-04
  • 期刊:
  • 影响因子:
    3.1
  • 作者:
    Zhao Zhang;Yu-Tao Zhao;Wen Qu;Hong-Min Liu
  • 通讯作者:
    Hong-Min Liu

Zhao Zhang的其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

{{ truncateString('Zhao Zhang', 18)}}的其他基金

Collaborative Research: Frameworks: hpcGPT: Enhancing Computing Center User Support with HPC-enriched Generative AI
协作研究:框架:hpcGPT:通过 HPC 丰富的生成式 AI 增强计算中心用户支持
  • 批准号:
    2411294
  • 财政年份:
    2024
  • 资助金额:
    $ 59.97万
  • 项目类别:
    Standard Grant
Collaborative Research: CSR: Medium: Fortuna: Characterizing and Harnessing Performance Variability in Accelerator-rich Clusters
合作研究:CSR:Medium:Fortuna:表征和利用富含加速器的集群中的性能变异性
  • 批准号:
    2312689
  • 财政年份:
    2023
  • 资助金额:
    $ 59.97万
  • 项目类别:
    Continuing Grant
Collaborative Research: CSR: Medium: Fortuna: Characterizing and Harnessing Performance Variability in Accelerator-rich Clusters
合作研究:CSR:Medium:Fortuna:表征和利用富含加速器的集群中的性能变异性
  • 批准号:
    2401244
  • 财政年份:
    2023
  • 资助金额:
    $ 59.97万
  • 项目类别:
    Continuing Grant
Collaborative Research: Frameworks: Diamond: Democratizing Large Neural Network Model Training for Science
合作研究:框架:钻石:科学大型神经网络模型训练的民主化
  • 批准号:
    2311766
  • 财政年份:
    2023
  • 资助金额:
    $ 59.97万
  • 项目类别:
    Standard Grant
Collaborative Research: OAC Core: ScaDL: New Approaches to Scaling Deep Learning for Science Applications on Supercomputers
协作研究:OAC 核心:ScaDL:在超级计算机上扩展深度学习科学应用的新方法
  • 批准号:
    2401246
  • 财政年份:
    2023
  • 资助金额:
    $ 59.97万
  • 项目类别:
    Standard Grant
Collaborative Research: Frameworks: Diamond: Democratizing Large Neural Network Model Training for Science
合作研究:框架:钻石:科学大型神经网络模型训练的民主化
  • 批准号:
    2401245
  • 财政年份:
    2023
  • 资助金额:
    $ 59.97万
  • 项目类别:
    Standard Grant
Collaborative Research: OAC Core: ScaDL: New Approaches to Scaling Deep Learning for Science Applications on Supercomputers
协作研究:OAC 核心:ScaDL:在超级计算机上扩展深度学习科学应用的新方法
  • 批准号:
    2106661
  • 财政年份:
    2021
  • 资助金额:
    $ 59.97万
  • 项目类别:
    Standard Grant
Collaborative Research: OAC Core: Small: Efficient and Policy-driven Burst Buffer Sharing
合作研究:OAC Core:小型:高效且策略驱动的突发缓冲区共享
  • 批准号:
    2008388
  • 财政年份:
    2020
  • 资助金额:
    $ 59.97万
  • 项目类别:
    Standard Grant
SHF: Medium:Collaborative Research: Architectural and System Support for Building Versatile Memory Systems
SHF:媒介:协作研究:构建多功能内存系统的架构和系统支持
  • 批准号:
    1643271
  • 财政年份:
    2016
  • 资助金额:
    $ 59.97万
  • 项目类别:
    Continuing Grant
SHF: Medium:Collaborative Research: Architectural and System Support for Building Versatile Memory Systems
SHF:媒介:协作研究:构建多功能内存系统的架构和系统支持
  • 批准号:
    1514229
  • 财政年份:
    2015
  • 资助金额:
    $ 59.97万
  • 项目类别:
    Continuing Grant

相似国自然基金

基于随机化的高效可扩展深度学习算法研究
  • 批准号:
    62376131
  • 批准年份:
    2023
  • 资助金额:
    51 万元
  • 项目类别:
    面上项目
区块链可扩展存储和高频运算高效算法的研究
  • 批准号:
    62072326
  • 批准年份:
    2020
  • 资助金额:
    56 万元
  • 项目类别:
    面上项目
全球数值天气预报谱模式的高效可扩展并行计算技术研究
  • 批准号:
    41875121
  • 批准年份:
    2018
  • 资助金额:
    62.0 万元
  • 项目类别:
    面上项目
大规模网络下面向复杂DoS攻击的可扩展性增强的高效防御方法研究
  • 批准号:
    61601107
  • 批准年份:
    2016
  • 资助金额:
    19.0 万元
  • 项目类别:
    青年科学基金项目
几类具有良好可扩展性的高效并行自适应组合型GAMG法
  • 批准号:
    11571293
  • 批准年份:
    2015
  • 资助金额:
    50.0 万元
  • 项目类别:
    面上项目

相似海外基金

CAREER: Multi-Dimensional Photonic Accelerators for Scalable and Efficient Computing
职业:用于可扩展和高效计算的多维光子加速器
  • 批准号:
    2337674
  • 财政年份:
    2024
  • 资助金额:
    $ 59.97万
  • 项目类别:
    Continuing Grant
CAREER: Towards Efficient and Scalable Zero-Knowledge Proofs
职业:迈向高效且可扩展的零知识证明
  • 批准号:
    2401481
  • 财政年份:
    2023
  • 资助金额:
    $ 59.97万
  • 项目类别:
    Continuing Grant
CAREER: Scalable and Adaptable Sparsity-driven Methods for more Efficient AI Systems
职业:可扩展且适应性强的稀疏驱动方法,可实现更高效的人工智能系统
  • 批准号:
    2238291
  • 财政年份:
    2023
  • 资助金额:
    $ 59.97万
  • 项目类别:
    Continuing Grant
CAREER: Towards Efficient and Scalable Zero-Knowledge Proofs
职业:迈向高效且可扩展的零知识证明
  • 批准号:
    2144625
  • 财政年份:
    2022
  • 资助金额:
    $ 59.97万
  • 项目类别:
    Continuing Grant
CAREER: System Support for Scalable, Fast, and Power-Efficient Genome Sequencing
职业:对可扩展、快速且节能的基因组测序的系统支持
  • 批准号:
    2143120
  • 财政年份:
    2022
  • 资助金额:
    $ 59.97万
  • 项目类别:
    Continuing Grant
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了