Collaborative Research: Frameworks: Diamond: Democratizing Large Neural Network Model Training for Science

合作研究:框架:钻石:科学大型神经网络模型训练的民主化

基本信息

  • 批准号:
    2401245
  • 负责人:
  • 金额:
    $ 94.95万
  • 依托单位:
  • 依托单位国家:
    美国
  • 项目类别:
    Standard Grant
  • 财政年份:
    2023
  • 资助国家:
    美国
  • 起止时间:
    2023-11-01 至 2026-09-30
  • 项目状态:
    未结题

项目摘要

Diamond is a service designed to democratize access to cutting-edge DL methods by abstracting the use of HPC resources. Diamond combines novel computer science research with translational computer science to reduce the significant barriers that impede adoption of DL methods in science. With Diamond, domain scientists can focus on the neural network architecture design to solve their domain-specific challenges without worrying about Cyberinfrastructure management. Diamond also contributes to key educational outcomes. PhD students work directly on project goals, and tools developed in the project will be used in undergraduate and graduate-level courses. The tools will also be used in summer schools and programs at TACC, UChicago, and NCSA. Targeted recruitment of students from underserved communities at the graduate, undergraduate, and high-school levels will address diversity and outreach goals.Diamond builds upon prior work in software ecosystem management, parallel computing, deep learning, and data management, combining disparate capabilities into a cohesive and user-friendly framework. It provides a web service-enabled programming interface supporting the DL lifecycle from development to deployment and dissemination. It offers container configuration, automatic scaling for distributed training, hyper-parameter tuning, and model sharing. It also applies crucial performance optimizations, including planning for long training jobs, performance-aware model placement, cross-cluster training, and data management. Diamond results are made available to domain scientists, computer scientists, and engineers supporting DL applications in HPC centers.This award reflects NSF's statutory mission and has been deemed worthy of support through evaluation using the Foundation's intellectual merit and broader impacts review criteria.
Diamond 是一项服务,旨在通过抽象 HPC 资源的使用来民主化对尖端 DL 方法的访问。 Diamond 将新颖的计算机科学研究与转化计算机科学相结合,以减少阻碍 DL 方法在科学中采用的重大障碍。借助 Diamond,领域科学家可以专注于神经网络架构设计,以解决特定领域的挑战,而无需担心网络基础设施管理。钻石还为关键的教育成果做出了贡献。博士生直接致力于项目目标,项目中开发的工具将用于本科和研究生课程。这些工具还将用于 TACC、芝加哥大学和 NCSA 的暑期学校和项目。在研究生、本科生和高中阶段有针对性地从服务不足的社区招收学生,将解决多样性和外展目标。Diamond 建立在软件生态系统管理、并行计算、深度学习和数据管理方面的先前工作的基础上,将不同的能力结合成一个具有凝聚力且用户友好的框架。它提供了一个支持 Web 服务的编程接口,支持从开发到部署和传播的 DL 生命周期。它提供容器配置、分布式训练的自动扩展、超参数调整和模型共享。它还应用了关键的性能优化,包括规划长期训练作业、性能感知模型放置、跨集群训练和数据管理。钻石级成果可供支持 HPC 中心 DL 应用的领域科学家、计算机科学家和工程师使用。该奖项反映了 NSF 的法定使命,并通过使用基金会的智力价值和更广泛的影响审查标准进行评估,被认为值得支持。

项目成果

期刊论文数量(1)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
Mirage: Towards Low-interruption Services on Batch GPU Clusters with Reinforcement Learning
Mirage:通过强化学习实现批量 GPU 集群上的低中断服务
  • DOI:
    10.1145/3581784.3607042
  • 发表时间:
    2023-11
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Ding, Qiyang;Zheng, Pengfei;Kudari, Shreyas;Venkataraman, Shivaram;Zhang, Zhao
  • 通讯作者:
    Zhang, Zhao
{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ patent.updateTime }}

Zhao Zhang其他文献

The genomic history of the Iberian Peninsula over the past 8000 years
伊比利亚半岛过去8000年的基因组历史
  • DOI:
    10.4236/jbbs.2019.96018
  • 发表时间:
    2024-09-14
  • 期刊:
  • 影响因子:
    0
  • 作者:
    I. Olalde;Swapan Mallick;Nick Patterson;N. Rohl;Mouco;Marina Silva;Katharina Dulias;C. Edwards;Francesca G;ini;ini;Maria;Pala;Pedro;Soares;Manuel;Ferr;o;o;Nicole;Adamski;Broom;khoshbacht;khoshbacht;O. Cheronet;B. Culleton;Daniel Fern;es;es;Marie Lawson;Matthew Mah;Jonas Oppenheimer;Kristin Stewardson;Zhao Zhang;Juan Manuel Jiménez Arenas;Isidro Jorge Toro Moyano;Domingo C. Salazar;P. Castanyer;Marta Santos;J. Tremoleda;Marina Lozano;Pablo García;Borja;J. Fernández;J. A. Mujika;Cecilio Barroso;J. Bermúdez;E. Mínguez;Josep Burch;Neus Coromina;David Vivó;A. Cebrià;Josep Maria Fullola;Oreto García‐Puchol;J. I. Morales;F. Xavier;12;Oms;Tona;Majó;Josep;Vergés;Antònia;Díaz;Imma;13;Castanyer;F. J. López;A. M. Silva;C. Alonso;Germán;Delibes;de;Castro;Javier;Jiménez;Echevarría;Adolfo;Moreno;Guillermo Pascual Berlanga;Pablo Ramos;José Ramos Muñoz;E. Vij;e;e;16;Vila;Gustau Aguilella Arzo;Ángel Esparza Arroyo;K. Lillios;Jennifer Mack;J. Velasco;A. Waterman;Luis Benítez de Lugo Enrich;María Benito;18;Sánchez;B. Agustí;F. Codina;Gabriel de Prado;A. Estalrrich;Álvaro;Fernández;Flores;Clive;Finlayson;Geraldine;Stewart;20;Francisco Giles;Antonio Rosas;V. González;Gabriel García Atiénzar;M. S. H. Pérez;Arm;o Llanos;o;Carrión Marco;Isabel Beneyto;David López;Mar Tormo;A. C. Valera;C. Blasco;Corina Liesau;Patricia Ríos;Joan Daura;Jesús de Pedro Michó;Agustín A Diez Castillo;R. F. Fernández;R. Garrido;V. S. Gonçalves;E. Guerra;Ana Mercedes;26;Herrero;Joaquim Juan;Dani López;S. McClure;Merino Pérez;Arturo Oliver Foix;Montse Borràs;A. Sousa;Manuel Vidal Encinas;D. Kennett;Martin B. Richards;K. Alt;W. Haak;R. Pinhasi;C. Lalueza;David Reich
  • 通讯作者:
    David Reich
Hawkeye: Change-targeted Testing for Android Apps based on Deep Reinforcement Learning
Hawkeye:基于深度强化学习的 Android 应用变更目标测试
Identification of microenvironment‐related genes with prognostic value in clear cell renal cell carcinoma
鉴定对透明细胞肾细胞癌具有预后价值的微环境相关基因
  • DOI:
    10.1002/jcb.29654
  • 发表时间:
    2020-01-21
  • 期刊:
  • 影响因子:
    4
  • 作者:
    Zhao Zhang;Zeyan Li;Zhao Liu;Xiang Zhang;Nengwang Yu;Zhonghua Xu
  • 通讯作者:
    Zhonghua Xu
A performance comparison of DRAM memory system optimizations for SMT processors
SMT 处理器的 DRAM 内存系统优化的性能比较
Association Between Sex and Immune-Related Adverse Events During Immune Checkpoint Inhibitor Therapy.
免疫检查点抑制剂治疗期间性别与免疫相关不良事件之间的关联。
  • DOI:
    10.1093/jnci/djab035
  • 发表时间:
    2021-03-10
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Ying Jing;Yongchang Zhang;Jing Wang;Kunyan Li;Xue Chen;Jianfu Heng;Qian Gao;Youqiong Ye;Zhao Zhang;Yaoming Liu;Y. Lou;Steven H. Lin;L. Diao;Hong Liu;Xiang Chen;G. Mills;Leng Han
  • 通讯作者:
    Leng Han

Zhao Zhang的其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

{{ truncateString('Zhao Zhang', 18)}}的其他基金

Collaborative Research: Frameworks: hpcGPT: Enhancing Computing Center User Support with HPC-enriched Generative AI
协作研究:框架:hpcGPT:通过 HPC 丰富的生成式 AI 增强计算中心用户支持
  • 批准号:
    2411294
  • 财政年份:
    2024
  • 资助金额:
    $ 94.95万
  • 项目类别:
    Standard Grant
CAREER: Efficient and Scalable Large Foundational Model Training on Supercomputers for Science
职业:科学超级计算机上高效且可扩展的大型基础模型训练
  • 批准号:
    2340011
  • 财政年份:
    2024
  • 资助金额:
    $ 94.95万
  • 项目类别:
    Standard Grant
Collaborative Research: Frameworks: Diamond: Democratizing Large Neural Network Model Training for Science
合作研究:框架:钻石:科学大型神经网络模型训练的民主化
  • 批准号:
    2311766
  • 财政年份:
    2023
  • 资助金额:
    $ 94.95万
  • 项目类别:
    Standard Grant
Collaborative Research: CSR: Medium: Fortuna: Characterizing and Harnessing Performance Variability in Accelerator-rich Clusters
合作研究:CSR:Medium:Fortuna:表征和利用富含加速器的集群中的性能变异性
  • 批准号:
    2312689
  • 财政年份:
    2023
  • 资助金额:
    $ 94.95万
  • 项目类别:
    Continuing Grant
Collaborative Research: OAC Core: ScaDL: New Approaches to Scaling Deep Learning for Science Applications on Supercomputers
协作研究:OAC 核心:ScaDL:在超级计算机上扩展深度学习科学应用的新方法
  • 批准号:
    2401246
  • 财政年份:
    2023
  • 资助金额:
    $ 94.95万
  • 项目类别:
    Standard Grant
Collaborative Research: CSR: Medium: Fortuna: Characterizing and Harnessing Performance Variability in Accelerator-rich Clusters
合作研究:CSR:Medium:Fortuna:表征和利用富含加速器的集群中的性能变异性
  • 批准号:
    2401244
  • 财政年份:
    2023
  • 资助金额:
    $ 94.95万
  • 项目类别:
    Continuing Grant
Collaborative Research: OAC Core: ScaDL: New Approaches to Scaling Deep Learning for Science Applications on Supercomputers
协作研究:OAC 核心:ScaDL:在超级计算机上扩展深度学习科学应用的新方法
  • 批准号:
    2106661
  • 财政年份:
    2021
  • 资助金额:
    $ 94.95万
  • 项目类别:
    Standard Grant
Collaborative Research: OAC Core: Small: Efficient and Policy-driven Burst Buffer Sharing
合作研究:OAC Core:小型:高效且策略驱动的突发缓冲区共享
  • 批准号:
    2008388
  • 财政年份:
    2020
  • 资助金额:
    $ 94.95万
  • 项目类别:
    Standard Grant
SHF: Medium:Collaborative Research: Architectural and System Support for Building Versatile Memory Systems
SHF:媒介:协作研究:构建多功能内存系统的架构和系统支持
  • 批准号:
    1643271
  • 财政年份:
    2016
  • 资助金额:
    $ 94.95万
  • 项目类别:
    Continuing Grant
SHF: Medium:Collaborative Research: Architectural and System Support for Building Versatile Memory Systems
SHF:媒介:协作研究:构建多功能内存系统的架构和系统支持
  • 批准号:
    1514229
  • 财政年份:
    2015
  • 资助金额:
    $ 94.95万
  • 项目类别:
    Continuing Grant

相似国自然基金

基于共价有机框架薄膜的气体传感器及其敏感机理研究
  • 批准号:
    62371299
  • 批准年份:
    2023
  • 资助金额:
    52 万元
  • 项目类别:
    面上项目
表面手性有机框架的设计构筑及手性调控研究
  • 批准号:
    22372030
  • 批准年份:
    2023
  • 资助金额:
    50 万元
  • 项目类别:
    面上项目
有机小分子插入共价有机框架调控电化学发光性能及对铀的分析新方法研究
  • 批准号:
    22376023
  • 批准年份:
    2023
  • 资助金额:
    50 万元
  • 项目类别:
    面上项目
全球大气谱模式动力框架耦合有限体积方法研究
  • 批准号:
    42375155
  • 批准年份:
    2023
  • 资助金额:
    50 万元
  • 项目类别:
    面上项目
铁系金属有机框架材料的活性位结构调控与双效氧电催化机制研究
  • 批准号:
    22309180
  • 批准年份:
    2023
  • 资助金额:
    30 万元
  • 项目类别:
    青年科学基金项目

相似海外基金

Collaborative Research: AF: Small: Structural Graph Algorithms via General Frameworks
合作研究:AF:小型:通过通用框架的结构图算法
  • 批准号:
    2347321
  • 财政年份:
    2024
  • 资助金额:
    $ 94.95万
  • 项目类别:
    Standard Grant
Collaborative Research: Frameworks: hpcGPT: Enhancing Computing Center User Support with HPC-enriched Generative AI
协作研究:框架:hpcGPT:通过 HPC 丰富的生成式 AI 增强计算中心用户支持
  • 批准号:
    2411294
  • 财政年份:
    2024
  • 资助金额:
    $ 94.95万
  • 项目类别:
    Standard Grant
Collaborative Research: Frameworks: hpcGPT: Enhancing Computing Center User Support with HPC-enriched Generative AI
协作研究:框架:hpcGPT:通过 HPC 丰富的生成式 AI 增强计算中心用户支持
  • 批准号:
    2411298
  • 财政年份:
    2024
  • 资助金额:
    $ 94.95万
  • 项目类别:
    Standard Grant
Collaborative Research: Scalable Manufacturing of Large-Area Thin Films of Metal-Organic Frameworks for Separations Applications
合作研究:用于分离应用的大面积金属有机框架薄膜的可扩展制造
  • 批准号:
    2326714
  • 财政年份:
    2024
  • 资助金额:
    $ 94.95万
  • 项目类别:
    Standard Grant
Collaborative Research: Frameworks: hpcGPT: Enhancing Computing Center User Support with HPC-enriched Generative AI
协作研究:框架:hpcGPT:通过 HPC 丰富的生成式 AI 增强计算中心用户支持
  • 批准号:
    2411296
  • 财政年份:
    2024
  • 资助金额:
    $ 94.95万
  • 项目类别:
    Standard Grant
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了