CSR: Small: Collaborative Research: Tuning Extreme-scale Storage Stack through Deep Reinforcement Learning

CSR:小型:协作研究:通过深度强化学习调整超大规模存储堆栈

基本信息

  • 批准号:
    1817094
  • 负责人:
  • 金额:
    $ 24万
  • 依托单位:
  • 依托单位国家:
    美国
  • 项目类别:
    Standard Grant
  • 财政年份:
    2018
  • 资助国家:
    美国
  • 起止时间:
    2018-10-01 至 2024-09-30
  • 项目状态:
    已结题

项目摘要

Many research domains, such as high-energy physics, climate science, astrophysics, combustion science, and computational biology, need to process large amounts of data. Such domains are heavily relying on the capabilities of high performance computing (HPC) systems to manage and efficiently process massive amounts of data. Consequently, applications in the aforementioned research domains require highly optimized performance on the HPC storage systems that store, manage, and manipulate data. This project aims to utilize deep reinforcement learning methods to fine-tune the HPC storage system for optimized performance.This research explores the feasibility of leveraging deep reinforcement learning to optimize HPC storage systems by: (a) Creating a deep learning based HPC storage stack model; (b) Remodeling existing HPC storage stack to support automated configuration and tuning; (c) Collecting training datasets and training the storage stack model; and (d) utilizing the model as a responsive and playable virtual environment to learn the best policy to tune parameters. As a collaborative project, this research aims to advance the domain knowledge of both HPC storage systems and machine learning. The enhanced performance on the HPC storage stack will in turn benefit scientific discovery and thus our society. The investigators will integrate research, education, and outreach efforts during the course of this project, including recruiting and retaining of underrepresented students, mentoring graduate and undergraduate students, integrating research findings into curriculum, and publishing and disseminating results.The data collected to train the storage stack model will be shared at https://discl.cs.ttu.edu/tuningstorage while the code of machine learning at https://github.com/forrestbao/DL4SC. Results and data will be made available by the time of publication. The data will be annotated as appropriate to facilitate interpretation. The principal investigators will strive to maintain the repositories as long as possible.This award reflects NSF's statutory mission and has been deemed worthy of support through evaluation using the Foundation's intellectual merit and broader impacts review criteria.
许多研究领域,例如高能物理学,气候科学,天体物理学,燃烧科学和计算生物学,都需要处理大量数据。这些领域在很大程度上依赖于高性能计算(HPC)系统的功能来管理和有效处理大量数据。因此,上述研究域中的应用需要在存储,管理和操纵数据的HPC存储系统上进行高度优化的性能。该项目旨在利用深厚的强化学习方法来微调HPC存储系统以优化性能。本研究探讨了利用深厚的增强学习以通过以下方式优化HPC存储系统的可行性: ; (b)重塑现有的HPC存储堆栈以支持自动配置和调整; (c)收集培训数据集并培训存储堆栈模型; (d)利用模型作为响应且可播放的虚拟环境来学习调整参数的最佳策略。作为一个协作项目,这项研究旨在促进HPC存储系统和机器学习的领域知识。 HPC存储堆栈的增强性能反过来将受益于科学发现,从而使我们的社会受益。调查人员将在该项目过程中整合研究,教育和外展工作,包括招募和保留代表性不足的学生,指导研究生和本科生,将研究结果集成到课程中,以及发布和传播结果。存储堆栈模型将在https://discl.cs.ttu.edu/tuningstorage上共享,而机器学习代码在https://github.com/forrestbao/dl4sc上。结果和数据将在发布时提供。数据将适当地注释以促进解释。首席调查人员将尽可能长时间地维持存储库。该奖项反映了NSF的法定任务,并被认为是值得通过基金会的知识分子优点和更广泛影响的审查标准来评估值得支持的。

项目成果

期刊论文数量(12)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
Data Distribution for Heterogeneous Storage Systems
  • DOI:
    10.1109/tc.2022.3223302
  • 发表时间:
    2023-06
  • 期刊:
  • 影响因子:
    3.7
  • 作者:
    Jiang Zhou;Yong Chen;Mai Zheng;Weiping Wang
  • 通讯作者:
    Jiang Zhou;Yong Chen;Mai Zheng;Weiping Wang
Optimal GPU Frequency Selection using Multi-Objective Approaches for HPC Systems
HAM: Hotspot-Aware Manager for Improving Communications With 3D-Stacked Memory
HAM:热点感知管理器,用于改善 3D 堆栈内存的通信
  • DOI:
    10.1109/tc.2021.3066982
  • 发表时间:
    2021
  • 期刊:
  • 影响因子:
    3.7
  • 作者:
    Wang, Xi;Tumeo, Antonino;Leidel, John D.;Li, Jie;Chen, Yong
  • 通讯作者:
    Chen, Yong
JobViewer: Graph-based Visualization for Monitoring High-Performance Computing System
JobViewer:用于监控高性能计算系统的基于图形的可视化
  • DOI:
    10.1109/bdcat56447.2022.00021
  • 发表时间:
    2022
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Dang, Tommy;Nguyen, Ngan V.T.;Li, Jie;Sill, Alan;Hass, Jon;Chen, Yong
  • 通讯作者:
    Chen, Yong
Exploiting user activeness for data retention in HPC systems
利用用户活跃度来保留 HPC 系统中的数据
  • DOI:
    10.1145/3458817.3476201
  • 发表时间:
    2021
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Zhang, Wei;Byna, Suren;Sim, Hyogi;Lee, Sangkeun;Vazhkudai, Sudharshan;Chen, Yong
  • 通讯作者:
    Chen, Yong
{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ patent.updateTime }}

Yong Chen其他文献

Low-temperature sintering and magnetic properties of CoTi dopant barium ferrites with Bi2O3 addition
Bi2O3 CoTi掺杂钡铁氧体的低温烧结及磁性能
  • DOI:
    10.1063/1.5075655
  • 发表时间:
    2018
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Daming Chen;Yong Chen;Yuanxun Li
  • 通讯作者:
    Yuanxun Li
GPU-based Static State Security Analysis in Power Systems
基于GPU的电力系统静态安全分析
A 3.3-mW 25.2-to-29.4-GHz Current-Reuse VCO Using a Single-Turn Multi-Tap Inductor and Differential-Only Switched-Capacitor Arrays With a 187.6-dBc/Hz FOM
使用单匝多抽头电感器和纯差分开关电容器阵列(FOM 为 187.6dBc/Hz)的 3.3mW 25.2 至 29.4GHz 电流复用 VCO
A novel survival nomogram for stage I-III acral lentiginous melanoma patients, based on the SEER database and a multi-center external validation cohort
基于 SEER 数据库和多中心外部验证队列的 I-III 期肢端雀斑黑色素瘤患者的新型生存列线图
  • DOI:
    10.1007/s44178-024-00092-x
  • 发表时间:
    2024
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Tong Li;Wei Sun;YanWen Luo;Yu Xu;Chunmeng Wang;Wangjun Yan;Tao Li;Jilong Yang;Yong Chen
  • 通讯作者:
    Yong Chen
Rapid synthesis of uniform nano-sized silicalite-1 zeolite crystals under atmospheric pressure without wastes discharge
常压下快速合成均匀纳米级Silicalite-1沸石晶体且无三废排放
  • DOI:
    10.1016/j.cej.2019.122913
  • 发表时间:
    2020-02
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Lejian Zhang;Xinping Wang;Yong Chen
  • 通讯作者:
    Yong Chen

Yong Chen的其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

{{ truncateString('Yong Chen', 18)}}的其他基金

Collaborative Research: Fusion of Siloed Data for Multistage Manufacturing Systems: Integrative Product Quality and Machine Health Management
协作研究:多级制造系统的孤立数据融合:集成产品质量和机器健康管理
  • 批准号:
    2323084
  • 财政年份:
    2024
  • 资助金额:
    $ 24万
  • 项目类别:
    Standard Grant
Conference: 2024 Manufacturing Science and Engineering Conference and 52nd North American Manufacturing Research Conference; Knoxville, Tennessee; 17-21 June 2024
会议:2024年制造科学与工程会议暨第52届北美制造研究会议;
  • 批准号:
    2344983
  • 财政年份:
    2023
  • 资助金额:
    $ 24万
  • 项目类别:
    Standard Grant
Quantum Many-Body Physics in Spin-Orbit Coupled Bose Gases
自旋轨道耦合玻色气体中的量子多体物理
  • 批准号:
    2012185
  • 财政年份:
    2020
  • 资助金额:
    $ 24万
  • 项目类别:
    Continuing Grant
Phase-II IUCRC Texas Tech University: Center for Cloud and Autonomic Computing
第二阶段 IUCRC 德克萨斯理工大学:云和自主计算中心
  • 批准号:
    1939140
  • 财政年份:
    2020
  • 资助金额:
    $ 24万
  • 项目类别:
    Continuing Grant
Collaborative Research: CESER: EAGER: "FabWave" - A Pilot Manufacturing Cyberinfrastructure for Shareable Access to Information Rich Product Manufacturing Data
合作研究:CESER:EAGER:“FabWave”——用于共享访问信息丰富的产品制造数据的试点制造网络基础设施
  • 批准号:
    1812675
  • 财政年份:
    2018
  • 资助金额:
    $ 24万
  • 项目类别:
    Standard Grant
Elements:Software:NSCI: Empowering Data-driven Discovery with a Provenance Collection, Management, and Analysis Software Infrastructure
元素:软件:NSCI:通过来源收集、管理和分析软件基础设施支持数据驱动的发现
  • 批准号:
    1835892
  • 财政年份:
    2018
  • 资助金额:
    $ 24万
  • 项目类别:
    Standard Grant
Collaborative Research: Strain Based Devices for Switches and Memory Applications
合作研究:用于开关和存储器应用的基于应变的器件
  • 批准号:
    1711332
  • 财政年份:
    2017
  • 资助金额:
    $ 24万
  • 项目类别:
    Standard Grant
SHF: Small: Collaborative Research: Uncovering Vulnerabilities in Parallel File Systems for Reliable High Performance Computing
SHF:小型:协作研究:发现并行文件系统中的漏洞以实现可靠的高性能计算
  • 批准号:
    1718336
  • 财政年份:
    2017
  • 资助金额:
    $ 24万
  • 项目类别:
    Standard Grant
Additive Manufacturing of Controlled Anisotropic Materials via Electrically Assisted Nanocomposite Fabrication
通过电辅助纳米复合材料制造受控各向异性材料的增材制造
  • 批准号:
    1663663
  • 财政年份:
    2017
  • 资助金额:
    $ 24万
  • 项目类别:
    Standard Grant
Dynamics and Excitations of Spin-Orbit-Coupled Bose-Einstein Condensates
自旋轨道耦合玻色-爱因斯坦凝聚体的动力学和激发
  • 批准号:
    1708134
  • 财政年份:
    2017
  • 资助金额:
    $ 24万
  • 项目类别:
    Standard Grant

相似国自然基金

基于超宽频技术的小微型无人系统集群协作关键技术研究与应用
  • 批准号:
  • 批准年份:
    2020
  • 资助金额:
    57 万元
  • 项目类别:
    面上项目
异构云小蜂窝网络中基于协作预编码的干扰协调技术研究
  • 批准号:
    61661005
  • 批准年份:
    2016
  • 资助金额:
    30.0 万元
  • 项目类别:
    地区科学基金项目
密集小基站系统中的新型接入理论与技术研究
  • 批准号:
    61301143
  • 批准年份:
    2013
  • 资助金额:
    24.0 万元
  • 项目类别:
    青年科学基金项目
ScFVCD3-9R负载Bcl-6靶向小干扰RNA治疗EAMG的试验研究
  • 批准号:
    81072465
  • 批准年份:
    2010
  • 资助金额:
    31.0 万元
  • 项目类别:
    面上项目
基于小世界网络的传感器网络研究
  • 批准号:
    60472059
  • 批准年份:
    2004
  • 资助金额:
    21.0 万元
  • 项目类别:
    面上项目

相似海外基金

Collaborative Research: CSR: Small: Expediting Continual Online Learning on Edge Platforms through Software-Hardware Co-designs
协作研究:企业社会责任:小型:通过软硬件协同设计加快边缘平台上的持续在线学习
  • 批准号:
    2312157
  • 财政年份:
    2023
  • 资助金额:
    $ 24万
  • 项目类别:
    Standard Grant
Collaborative Research: CSR: Small: Caphammer: A New Security Exploit in Energy Harvesting Systems and its Countermeasures
合作研究:CSR:小型:Caphammer:能量收集系统的新安全漏洞及其对策
  • 批准号:
    2314681
  • 财政年份:
    2023
  • 资助金额:
    $ 24万
  • 项目类别:
    Continuing Grant
Collaborative Research: CSR: Small: Cross-layer learning-based Energy-Efficient and Resilient NoC design for Multicore Systems
协作研究:CSR:小型:基于跨层学习的多核系统节能和弹性 NoC 设计
  • 批准号:
    2321224
  • 财政年份:
    2023
  • 资助金额:
    $ 24万
  • 项目类别:
    Standard Grant
Collaborative Research: CSR: Small: Caphammer: A New Security Exploit in Energy Harvesting Systems and its Countermeasures
合作研究:CSR:小型:Caphammer:能量收集系统的新安全漏洞及其对策
  • 批准号:
    2314680
  • 财政年份:
    2023
  • 资助金额:
    $ 24万
  • 项目类别:
    Continuing Grant
Collaborative Research: CSR: Small: Cross-layer learning-based Energy-Efficient and Resilient NoC design for Multicore Systems
协作研究:CSR:小型:基于跨层学习的多核系统节能和弹性 NoC 设计
  • 批准号:
    2321225
  • 财政年份:
    2023
  • 资助金额:
    $ 24万
  • 项目类别:
    Standard Grant
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了