CSR: Small: Collaborative Research: Tuning Extreme-scale Storage Stack through Deep Reinforcement Learning

CSR:小型:协作研究:通过深度强化学习调整超大规模存储堆栈

基本信息

  • 批准号:
    1817094
  • 负责人:
  • 金额:
    $ 24万
  • 依托单位:
  • 依托单位国家:
    美国
  • 项目类别:
    Standard Grant
  • 财政年份:
    2018
  • 资助国家:
    美国
  • 起止时间:
    2018-10-01 至 2024-09-30
  • 项目状态:
    已结题

项目摘要

Many research domains, such as high-energy physics, climate science, astrophysics, combustion science, and computational biology, need to process large amounts of data. Such domains are heavily relying on the capabilities of high performance computing (HPC) systems to manage and efficiently process massive amounts of data. Consequently, applications in the aforementioned research domains require highly optimized performance on the HPC storage systems that store, manage, and manipulate data. This project aims to utilize deep reinforcement learning methods to fine-tune the HPC storage system for optimized performance.This research explores the feasibility of leveraging deep reinforcement learning to optimize HPC storage systems by: (a) Creating a deep learning based HPC storage stack model; (b) Remodeling existing HPC storage stack to support automated configuration and tuning; (c) Collecting training datasets and training the storage stack model; and (d) utilizing the model as a responsive and playable virtual environment to learn the best policy to tune parameters. As a collaborative project, this research aims to advance the domain knowledge of both HPC storage systems and machine learning. The enhanced performance on the HPC storage stack will in turn benefit scientific discovery and thus our society. The investigators will integrate research, education, and outreach efforts during the course of this project, including recruiting and retaining of underrepresented students, mentoring graduate and undergraduate students, integrating research findings into curriculum, and publishing and disseminating results.The data collected to train the storage stack model will be shared at https://discl.cs.ttu.edu/tuningstorage while the code of machine learning at https://github.com/forrestbao/DL4SC. Results and data will be made available by the time of publication. The data will be annotated as appropriate to facilitate interpretation. The principal investigators will strive to maintain the repositories as long as possible.This award reflects NSF's statutory mission and has been deemed worthy of support through evaluation using the Foundation's intellectual merit and broader impacts review criteria.
许多研究领域,例如高能物理、气候科学、天体物理学、燃烧科学和计算生物学,都需要处理大量数据。这些领域严重依赖高性能计算 (HPC) 系统的功能来管理和高效处理大量数据。因此,上述研究领域的应用程序需要存储、管理和操作数据的 HPC 存储系统具有高度优化的性能。该项目旨在利用深度强化学习方法来微调 HPC 存储系统以优化性能。本研究通过以下方式探索利用深度强化学习来优化 HPC 存储系统的可行性: (a) 创建基于深度学习的 HPC 存储堆栈模型; (b) 改造现有 HPC 存储堆栈以支持自动配置和调整; (c) 收集训练数据集并训练存储堆栈模型; (d) 利用该模型作为响应式且可玩的虚拟环境来学习调整参数的最佳策略。作为一个合作项目,这项研究旨在推进 HPC 存储系统和机器学习的领域知识。 HPC 存储堆栈性能的增强将反过来有利于科学发现,从而有利于我们的社会。研究人员将在该项目过程中整合研究、教育和推广工作,包括招募和保留代表性不足的学生、指导研究生和本科生、将研究成果纳入课程以及发布和传播结果。收集的数据用于培训存储堆栈模型将在 https://discl.cs.ttu.edu/tuningstorage 共享,而机器学习的代码将在 https://github.com/forrestbao/DL4SC 共享。结果和数据将在发布时提供。数据将被适当注释以方便解释。主要研究人员将努力尽可能长时间地维护存储库。该奖项反映了 NSF 的法定使命,并通过使用基金会的智力价值和更广泛的影响审查标准进行评估,被认为值得支持。

项目成果

期刊论文数量(12)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
HiperView: real-time monitoring of dynamic behaviors of high-performance computing centers
HiperView:实时监控高性能计算中心的动态行为
  • DOI:
    10.1007/s11227-021-03724-5
  • 发表时间:
    2021-03-29
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Tommy Dang;Ngan V. T. Nguyen;Yong Chen
  • 通讯作者:
    Yong Chen
Automating CPU Dynamic Thermal Control for High Performance Computing
自动化 CPU 动态热控制以实现高性能计算
Hashing Based Data Distribution in Heterogeneous Storage
异构存储中基于哈希的数据分布
  • DOI:
    10.1109/ispa-bdcloud-socialcom-sustaincom52081.2021.00095
  • 发表时间:
    2021-09
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Zhou, Jiang;Su, Lin;Wang, Weiping;Chen, Yong
  • 通讯作者:
    Chen, Yong
JobViewer: Graph-based Visualization for Monitoring High-Performance Computing System
JobViewer:用于监控高性能计算系统的基于图形的可视化
  • DOI:
    10.1109/bdcat56447.2022.00021
  • 发表时间:
    2022-12
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Dang, Tommy;Nguyen, Ngan V.T.;Li, Jie;Sill, Alan;Hass, Jon;Chen, Yong
  • 通讯作者:
    Chen, Yong
I/O characteristic discovery for storage system optimizations
用于存储系统优化的 I/O 特征发现
{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ patent.updateTime }}

Yong Chen其他文献

A 0.2-Terahertz Ceramic Relic Detection System Based on Iterative Threshold Filtering Imaging and Neural Network
基于迭代阈值滤波成像和神经网络的0.2太赫兹陶瓷遗迹检测系统
  • DOI:
    10.3390/electronics10182213
  • 发表时间:
    2021-09-09
  • 期刊:
  • 影响因子:
    2.9
  • 作者:
    Yiqing Mao;Tianxiang Wu;Yong Chen;Shunli Ma
  • 通讯作者:
    Shunli Ma
A 32-Gb/s 3.53-mW/Gb/s Adaptive Receiver AFE Employing a Hybrid CTLE, Edge-DFE and Merged Data-DFE/CDR in 65-nm CMOS
采用 65 nm CMOS 中的混​​合 CTLE、Edge-DFE 和合并数据 DFE/CDR 的 32 Gb/s 3.53 mW/Gb/s 自适应接收器 AFE
A distributed ship tracking algorithm based on particle filter
一种基于粒子滤波的分布式船舶跟踪算法
2015 Ieee International Conference on Big Data (big Data) Two-mode Data Distribution Scheme for Heterogeneous Storage in Data Centers
2015 IEEE大数据国际会议(big Data)数据中心异构存储的两种模式数据分布方案
Novel triple‐pedicled mucoperiosteal flaps in reconstruction of neo‐ostium after Draf III frontal sinusotomy for refractory frontal sinusitis
新型三蒂粘骨膜瓣在 Draf III 额窦切开术治疗难治性额窦炎后重建新口

Yong Chen的其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

{{ truncateString('Yong Chen', 18)}}的其他基金

Collaborative Research: Fusion of Siloed Data for Multistage Manufacturing Systems: Integrative Product Quality and Machine Health Management
协作研究:多级制造系统的孤立数据融合:集成产品质量和机器健康管理
  • 批准号:
    2323084
  • 财政年份:
    2024
  • 资助金额:
    $ 24万
  • 项目类别:
    Standard Grant
Conference: 2024 Manufacturing Science and Engineering Conference and 52nd North American Manufacturing Research Conference; Knoxville, Tennessee; 17-21 June 2024
会议:2024年制造科学与工程会议暨第52届北美制造研究会议;
  • 批准号:
    2344983
  • 财政年份:
    2023
  • 资助金额:
    $ 24万
  • 项目类别:
    Standard Grant
Quantum Many-Body Physics in Spin-Orbit Coupled Bose Gases
自旋轨道耦合玻色气体中的量子多体物理
  • 批准号:
    2012185
  • 财政年份:
    2020
  • 资助金额:
    $ 24万
  • 项目类别:
    Continuing Grant
Phase-II IUCRC Texas Tech University: Center for Cloud and Autonomic Computing
第二阶段 IUCRC 德克萨斯理工大学:云和自主计算中心
  • 批准号:
    1939140
  • 财政年份:
    2020
  • 资助金额:
    $ 24万
  • 项目类别:
    Continuing Grant
Collaborative Research: CESER: EAGER: "FabWave" - A Pilot Manufacturing Cyberinfrastructure for Shareable Access to Information Rich Product Manufacturing Data
合作研究:CESER:EAGER:“FabWave”——用于共享访问信息丰富的产品制造数据的试点制造网络基础设施
  • 批准号:
    1812675
  • 财政年份:
    2018
  • 资助金额:
    $ 24万
  • 项目类别:
    Standard Grant
Elements:Software:NSCI: Empowering Data-driven Discovery with a Provenance Collection, Management, and Analysis Software Infrastructure
元素:软件:NSCI:通过来源收集、管理和分析软件基础设施支持数据驱动的发现
  • 批准号:
    1835892
  • 财政年份:
    2018
  • 资助金额:
    $ 24万
  • 项目类别:
    Standard Grant
Collaborative Research: Strain Based Devices for Switches and Memory Applications
合作研究:用于开关和存储器应用的基于应变的器件
  • 批准号:
    1711332
  • 财政年份:
    2017
  • 资助金额:
    $ 24万
  • 项目类别:
    Standard Grant
SHF: Small: Collaborative Research: Uncovering Vulnerabilities in Parallel File Systems for Reliable High Performance Computing
SHF:小型:协作研究:发现并行文件系统中的漏洞以实现可靠的高性能计算
  • 批准号:
    1718336
  • 财政年份:
    2017
  • 资助金额:
    $ 24万
  • 项目类别:
    Standard Grant
Dynamics and Excitations of Spin-Orbit-Coupled Bose-Einstein Condensates
自旋轨道耦合玻色-爱因斯坦凝聚体的动力学和激发
  • 批准号:
    1708134
  • 财政年份:
    2017
  • 资助金额:
    $ 24万
  • 项目类别:
    Standard Grant
Additive Manufacturing of Controlled Anisotropic Materials via Electrically Assisted Nanocomposite Fabrication
通过电辅助纳米复合材料制造受控各向异性材料的增材制造
  • 批准号:
    1663663
  • 财政年份:
    2017
  • 资助金额:
    $ 24万
  • 项目类别:
    Standard Grant

相似国自然基金

小分子代谢物Catechin与TRPV1相互作用激活外周感觉神经元介导尿毒症瘙痒的机制研究
  • 批准号:
    82371229
  • 批准年份:
    2023
  • 资助金额:
    49 万元
  • 项目类别:
    面上项目
DHEA抑制小胶质细胞Fis1乳酸化修饰减轻POCD的机制
  • 批准号:
    82301369
  • 批准年份:
    2023
  • 资助金额:
    30 万元
  • 项目类别:
    青年科学基金项目
SETDB1调控小胶质细胞功能及参与阿尔茨海默病发病机制的研究
  • 批准号:
    82371419
  • 批准年份:
    2023
  • 资助金额:
    49 万元
  • 项目类别:
    面上项目
PTBP1驱动H4K12la/BRD4/HIF1α复合物-PKM2正反馈环路促进非小细胞肺癌糖代谢重编程的机制研究及治疗方案探索
  • 批准号:
    82303616
  • 批准年份:
    2023
  • 资助金额:
    30 万元
  • 项目类别:
    青年科学基金项目

相似海外基金

Collaborative Research: CSR: Small: Caphammer: A New Security Exploit in Energy Harvesting Systems and its Countermeasures
合作研究:CSR:小型:Caphammer:能量收集系统的新安全漏洞及其对策
  • 批准号:
    2314680
  • 财政年份:
    2023
  • 资助金额:
    $ 24万
  • 项目类别:
    Continuing Grant
Collaborative Research: CSR: Small: Cross-layer learning-based Energy-Efficient and Resilient NoC design for Multicore Systems
协作研究:CSR:小型:基于跨层学习的多核系统节能和弹性 NoC 设计
  • 批准号:
    2321225
  • 财政年份:
    2023
  • 资助金额:
    $ 24万
  • 项目类别:
    Standard Grant
Collaborative Research: CSR: Small: Cross-layer learning-based Energy-Efficient and Resilient NoC design for Multicore Systems
协作研究:CSR:小型:基于跨层学习的多核系统节能和弹性 NoC 设计
  • 批准号:
    2321224
  • 财政年份:
    2023
  • 资助金额:
    $ 24万
  • 项目类别:
    Standard Grant
Collaborative Research: CSR: Small: Caphammer: A New Security Exploit in Energy Harvesting Systems and its Countermeasures
合作研究:CSR:小型:Caphammer:能量收集系统的新安全漏洞及其对策
  • 批准号:
    2314681
  • 财政年份:
    2023
  • 资助金额:
    $ 24万
  • 项目类别:
    Continuing Grant
Collaborative Research: CSR: Small: Expediting Continual Online Learning on Edge Platforms through Software-Hardware Co-designs
协作研究:企业社会责任:小型:通过软硬件协同设计加快边缘平台上的持续在线学习
  • 批准号:
    2312158
  • 财政年份:
    2023
  • 资助金额:
    $ 24万
  • 项目类别:
    Standard Grant
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了