EAGER: Exploring Automatic Optimization of Multi-tiered HPC Storage Systems via Practical Reinforcement Learning

EAGER:通过实用强化学习探索多层 HPC 存储系统的自动优化

基本信息

  • 批准号:
    2412345
  • 负责人:
  • 金额:
    $ 13.4万
  • 依托单位:
  • 依托单位国家:
    美国
  • 项目类别:
    Standard Grant
  • 财政年份:
    2024
  • 资助国家:
    美国
  • 起止时间:
    2024-07-01 至 2025-06-30
  • 项目状态:
    未结题

项目摘要

Nowadays, scientific discovery increasingly involves generating and analyzing large amounts of data. These data-intensive scientific applications pose significant challenges to the storage systems of high-performance computing (HPC) clusters, that are heterogeneous and extremely complex. Scientists who need high-speed data access often experience frustration in effectively using these heterogeneous storage options. There is need to build the long-missing automated HPC I/O (Input/Output) middleware to transparently help scientists achieve optimal data access performance without their manual efforts. Designing automated HPC I/O middleware for large-scale, heterogeneous, and shared HPC storage systems is an extremely challenging task. The researchers supported by this grant plan to leverage machine learning techniques to understand the requests and the current system status, intelligently and adaptively scheduling and coordinating I/O requests. The outcomes of this research are expected to work with existing storage components and minimize the impacts on both scientific applications and the HPC systems.This project plans to tackle this grand challenge by exploring practical reinforcement learning-based (RL) methods and building relevant software infrastructure in an HPC environment. There are two main focuses in the project: 1) RL-based data placement for high storage utilization, and 2) RL-based I/O coordination for shared storage. Both tasks depend on identifying effective reinforcement learning methods and integrating these methods effectively into HPC systems. To achieve this goal, a novel, system-centric reinforcement learning framework will be developed. Moreover, in each research focus, various RL algorithms, deep neural network designs, and reward shaping will be proposed, implemented, rigorously benchmarked, and compared with state-of-the-art solutions.This award reflects NSF's statutory mission and has been deemed worthy of support through evaluation using the Foundation's intellectual merit and broader impacts review criteria.
如今,科学发现越来越多地涉及生成和分析大量数据。这些数据密集型的科学应用对异构且极其复杂的高性能计算(HPC)集群的存储系统提出了重大挑战。需要高速数据访问的科学家在有效使用这些异构存储选项时常常会遇到挫败感。需要构建长期缺失的自动化 HPC I/O(输入/输出)中间件,以透明地帮助科学家实现最佳数据访问性能,而无需手动操作。为大规模、异构和共享的 HPC 存储系统设计自动化 HPC I/O 中间件是一项极具挑战性的任务。受此资助计划支持的研究人员利用机器学习技术来了解请求和当前系统状态,智能地、自适应地调度和协调 I/O 请求。这项研究的成果预计将与现有的存储组件配合使用,并最大限度地减少对科学应用和 HPC 系统的影响。该项目计划通过探索实用的基于强化学习 (RL) 的方法和构建相关的软件基础设施来应对这一巨大挑战在 HPC 环境中。该项目有两个主要关注点:1)基于强化学习的数据放置,以实现高存储利用率;2)基于强化学习的 I/O 协调,以实现共享存储。这两项任务都依赖于确定有效的强化学习方法并将这些方法有效地集成到 HPC 系统中。为了实现这一目标,将开发一种新颖的、以系统为中心的强化学习框架。此外,在每个研究重点中,都会提出、实施各种强化学习算法、深度神经网络设计和奖励塑造,进行严格的基准测试,并与最先进的解决方案进行比较。该奖项反映了 NSF 的法定使命,并被视为值得通过使用基金会的智力优点和更广泛的影响审查标准进行评估来支持。

项目成果

期刊论文数量(0)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ patent.updateTime }}

Dong Dai其他文献

Client-side Straggler-Aware I/O Scheduler for Object-based Parallel File Systems
用于基于对象的并行文件系统的客户端 Straggler-Aware I/O 调度程序
  • DOI:
    10.1016/j.parco.2018.07.001
  • 发表时间:
    2018-05-16
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Neda Tavakoli;Dong Dai;Yong Chen
  • 通讯作者:
    Yong Chen
Detecting Associations in Large Dataset on MapReduce
在 MapReduce 上检测大数据集中的关联
RLScheduler: Learn to Schedule HPC Batch Jobs Using Deep Reinforcement Learning
RLScheduler:学习使用深度强化学习来安排 HPC 批处理作业
  • DOI:
  • 发表时间:
    2019-10-20
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Di Zhang;Dong Dai;Youbiao He;F. S. Bao
  • 通讯作者:
    F. S. Bao
GraphMeta: A Graph-Based Engine for Managing Large-Scale HPC Rich Metadata
GraphMeta:用于管理大规模 HPC 丰富元数据的基于图形的引擎
Bayesian Model Averaging with Exponentiated Least Square Loss
具有指数最小二乘损失的贝叶斯模型平均
  • DOI:
  • 发表时间:
    2014-08-06
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Dong Dai;Lei Han;Ting Yang;Tong Zhang
  • 通讯作者:
    Tong Zhang

Dong Dai的其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

{{ truncateString('Dong Dai', 18)}}的其他基金

CNS Core: Small: Moving Machine Learning into the Next-Generation Cloud Flexibly, Agilely and Efficiently
CNS核心:小:灵活、敏捷、高效地将机器学习迁移到下一代云
  • 批准号:
    2008265
  • 财政年份:
    2020
  • 资助金额:
    $ 13.4万
  • 项目类别:
    Standard Grant
SHF: Small: Collaborative Research: A Parallel Graph-Based Paradigm for HPC Parallel File System Checkers
SHF:小型:协作研究:基于并行图的 HPC 并行文件系统检查器范例
  • 批准号:
    1910727
  • 财政年份:
    2019
  • 资助金额:
    $ 13.4万
  • 项目类别:
    Standard Grant
SHF: Small: A Hybrid NVM based Computing Architecture for Machine Learning Applications
SHF:小型:用于机器学习应用的基于混合 NVM 的计算架构
  • 批准号:
    1908843
  • 财政年份:
    2019
  • 资助金额:
    $ 13.4万
  • 项目类别:
    Standard Grant
CRII: CSR: Partitioning Large Graphs in Deep Storage Architecture
CRII:CSR:深度存储架构中的大图分区
  • 批准号:
    1852815
  • 财政年份:
    2018
  • 资助金额:
    $ 13.4万
  • 项目类别:
    Standard Grant
CRII: CSR: Partitioning Large Graphs in Deep Storage Architecture
CRII:CSR:深度存储架构中的大图分区
  • 批准号:
    1756012
  • 财政年份:
    2018
  • 资助金额:
    $ 13.4万
  • 项目类别:
    Standard Grant
NSF Student Travel Grant for 2017 IEEE/ACM International Conference on Utility and Cloud Computing (UCC) and Co-located BDCAT Conference
NSF 学生旅费补助金用于 2017 年 IEEE/ACM 国际实用程序和云计算会议 (UCC) 以及同期举办的 BDCAT 会议
  • 批准号:
    1743903
  • 财政年份:
    2017
  • 资助金额:
    $ 13.4万
  • 项目类别:
    Standard Grant
NSF Student Travel Grant for 2017 IEEE/ACM International Conference on Utility and Cloud Computing (UCC) and Co-located BDCAT Conference
NSF 学生旅费补助金用于 2017 年 IEEE/ACM 国际实用程序和云计算会议 (UCC) 以及同期举办的 BDCAT 会议
  • 批准号:
    1743903
  • 财政年份:
    2017
  • 资助金额:
    $ 13.4万
  • 项目类别:
    Standard Grant

相似国自然基金

异质水凝胶微观机器人集群的自动化制备及其涌现功能的探索
  • 批准号:
  • 批准年份:
    2021
  • 资助金额:
    60 万元
  • 项目类别:
    面上项目
探索数据驱动的脑血流自动调节机能评价理论与方法
  • 批准号:
    81871447
  • 批准年份:
    2018
  • 资助金额:
    57.0 万元
  • 项目类别:
    面上项目
中英可比语料库与体育术语自动抽取的探索性研究
  • 批准号:
    60572132
  • 批准年份:
    2005
  • 资助金额:
    22.0 万元
  • 项目类别:
    面上项目
图像处理技术应用于自动化DNA分子手术过程的探索研究
  • 批准号:
    60575029
  • 批准年份:
    2005
  • 资助金额:
    26.0 万元
  • 项目类别:
    面上项目

相似海外基金

Excellence in Research: Exploring Effectiveness of Automatic Assessment of Cognitive and Metacognitive Processes in Engineering Learning through Natural Language Processing Models
卓越研究:通过自然语言处理模型探索工程学习中认知和元认知过程自动评估的有效性
  • 批准号:
    2302686
  • 财政年份:
    2023
  • 资助金额:
    $ 13.4万
  • 项目类别:
    Standard Grant
Automatic classification of images using machine learning to structure archaeological big data and enhance information retrieval
使用机器学习对图像进行自动分类,构建考古大数据并增强信息检索
  • 批准号:
    19K21643
  • 财政年份:
    2019
  • 资助金额:
    $ 13.4万
  • 项目类别:
    Grant-in-Aid for Challenging Research (Exploratory)
Automatic design of visual inspection systems using self-learning AI technology
利用自学习AI技术自动设计视觉检测系统
  • 批准号:
    19K12055
  • 财政年份:
    2019
  • 资助金额:
    $ 13.4万
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
The construction of cross-cultural model on the development of automatic person perception: Exploring differences between Japan and U.S.(Fostering Joint International Research)
自动人知觉发展的跨文化模型的构建:探索日本和美国之间的差异(促进国际联合研究)
  • 批准号:
    15KK0075
  • 财政年份:
    2016
  • 资助金额:
    $ 13.4万
  • 项目类别:
    Fund for the Promotion of Joint International Research (Fostering Joint International Research)
SBIR Phase I: Exploring the Feasibility of Deployable Crowd-Powered Real-Time Captioning Supplemented with Automatic Speech Recognition
SBIR 第一阶段:探索可部署的众包实时字幕并辅以自动语音识别的可行性
  • 批准号:
    1448616
  • 财政年份:
    2015
  • 资助金额:
    $ 13.4万
  • 项目类别:
    Standard Grant
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了