CIF: Small: How Much of Reinforcement Learning is Gradient Descent?

CIF:小:强化学习中有多少是梯度下降?

基本信息

  • 批准号:
    2245059
  • 负责人:
  • 金额:
    $ 30.12万
  • 依托单位:
  • 依托单位国家:
    美国
  • 项目类别:
    Standard Grant
  • 财政年份:
    2023
  • 资助国家:
    美国
  • 起止时间:
    2023-06-01 至 2026-05-31
  • 项目状态:
    未结题

项目摘要

In the past decade, reinforcement learning has achieved remarkable success in a wide range of applications, from games such as chess and go to advanced applications such as chip design and aerial navigation. There is now ample evidence that reinforcement learning represents one of the most promising research directions to deliver the next generation of autonomous systems. However, many popular reinforcement-learning methods often fail to converge, making the use of reinforcement learning in practice more an art than a science. This project will explore a novel approach to analyzing and designing convergent reinforcement-learning methods based on a recently discovered connection to gradient descent. This connection will not only improve the analysis of existing algorithms but also lead to the development of new methods.This project builds on a novel concept, gradient splitting, which allows classical reinforcement-learning methods to be viewed as modifications of stochastic-gradient-descent updates, which inherit many key properties of gradient descent. We will use this connection to develop variations of temporal difference learning and Q-learning which, when given a dataset sampled from a Markov decision process, will converge geometrically to the statistically optimal estimate of the true value function. Coupled with neural-network approximation, our methods will approximate the true value function with an additional error that is inversely proportional to a power of the width of the underlying neural network. These results will then be used to develop a provably convergent neural actor-critic method. The new methods we will develop will not only provide rigorous bounds on the performance of neural networks in reinforcement learning but also will result in significantly faster training times compared to existing methods.This award reflects NSF's statutory mission and has been deemed worthy of support through evaluation using the Foundation's intellectual merit and broader impacts review criteria.
在过去的十年中,强化学习在广泛的应用中取得了显着的成功,从国际象棋、围棋等游戏到芯片设计和航空导航等高级应用。现在有充分的证据表明强化学习是下一代自主系统最有前途的研究方向之一。然而,许多流行的强化学习方法往往无法收敛,使得强化学习在实践中的使用更像是一门艺术而不是一门科学。该项目将探索一种基于最近发现的与梯度下降的联系来分析和设计收敛强化学习方法的新方法。这种联系不仅会改进现有算法的分析,还会导致新方法的开发。该项目建立在一个新颖的概念“梯度分裂”的基础上,它允许经典的强化学习方法被视为随机梯度下降的修改更新,它继承了梯度下降的许多关键属性。我们将使用这种连接来开发时间差异学习和 Q 学习的变体,当给定从马尔可夫决策过程采样的数据集时,它们将几何收敛到真值函数的统计最优估计。与神经网络近似相结合,我们的方法将近似真实值函数,并带有与底层神经网络宽度的幂成反比的附加误差。然后,这些结果将用于开发可证明收敛的神经演员-评论家方法。我们将开发的新方法不仅将为强化学习中的神经网络性能提供严格的限制,而且与现有方法相比,训练时间也会显着加快。该奖项反映了 NSF 的法定使命,并通过评估被认为值得支持利用基金会的智力优势和更广泛的影响审查标准。

项目成果

期刊论文数量(2)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
Distributed TD(0) With Almost No Communication
几乎没有通信的分布式 TD(0)
  • DOI:
    10.1109/lcsys.2023.3287952
  • 发表时间:
    2021-04-16
  • 期刊:
  • 影响因子:
    3
  • 作者:
    R. Liu;Ale;er Olshevsky;er
  • 通讯作者:
    er
A Small Gain Analysis of Single Timescale Actor Critic
单时间尺度演员批评家的小增益分析
  • DOI:
    10.48550/arxiv.2203.02591
  • 发表时间:
    2022-03-04
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Ale;er Olshevsky;er;B. Gharesifard
  • 通讯作者:
    B. Gharesifard
{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ patent.updateTime }}

Alexander Olshevsky其他文献

Minimax Rank-1 Factorization
极小极大 Rank-1 分解
  • DOI:
    10.48550/arxiv.2310.00260
  • 发表时间:
    2019
  • 期刊:
  • 影响因子:
    0
  • 作者:
    J. Hendrickx;Alexander Olshevsky;Venkatesh Saligrama
  • 通讯作者:
    Venkatesh Saligrama
On (Non)Supermodularity of Average Control Energy
关于平均控制能量的(非)超模性
On Symmetric Continuum Opinion Dynamics
论对称连续体观点动力学
  • DOI:
    10.1137/130943923
  • 发表时间:
    2013-11-02
  • 期刊:
  • 影响因子:
    0
  • 作者:
    J. Hendrickx;Alexander Olshevsky
  • 通讯作者:
    Alexander Olshevsky
Distributed Gaussian learning over time-varying directed graphs
时变有向图上的分布式高斯学习
Leakage Certification Revisited: Bounding Model Errors in Side-Channel Security Evaluations
重新审视泄漏认证:侧通道安全评估中的边界模型错误
  • DOI:
  • 发表时间:
    2019
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Olivier Bronchain;J. Hendrickx;Clément Massart;Alexander Olshevsky;François
  • 通讯作者:
    François

Alexander Olshevsky的其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

{{ truncateString('Alexander Olshevsky', 18)}}的其他基金

CPS: Medium: Federated Learning for Predicting Electricity Consumption with Mixed Global/Local Models
CPS:中:使用混合全局/本地模型预测电力消耗的联合学习
  • 批准号:
    2317079
  • 财政年份:
    2024
  • 资助金额:
    $ 30.12万
  • 项目类别:
    Standard Grant
Computationally Efficient Methods for Control of Epidemics on Networks
控制网络流行病的计算有效方法
  • 批准号:
    2240848
  • 财政年份:
    2023
  • 资助金额:
    $ 30.12万
  • 项目类别:
    Standard Grant
Efficiently Distributing Optimization over Large-Scale Networks
在大规模网络上高效分布优化
  • 批准号:
    1933027
  • 财政年份:
    2019
  • 资助金额:
    $ 30.12万
  • 项目类别:
    Standard Grant
CAREER: Algorithms and Fundamental Limitations for Sparse Control
职业:稀疏控制的算法和基本限制
  • 批准号:
    1740451
  • 财政年份:
    2017
  • 资助金额:
    $ 30.12万
  • 项目类别:
    Standard Grant
Achieving Consensus Among Autonomous Dynamic Agents using Control Laws that Maintain Performance as Network Size Increases
使用随着网络规模增加而保持性能的控制律在自治动态代理之间达成共识
  • 批准号:
    1740452
  • 财政年份:
    2016
  • 资助金额:
    $ 30.12万
  • 项目类别:
    Standard Grant
Achieving Consensus Among Autonomous Dynamic Agents using Control Laws that Maintain Performance as Network Size Increases
使用随着网络规模增加而保持性能的控制律在自治动态代理之间达成共识
  • 批准号:
    1463262
  • 财政年份:
    2015
  • 资助金额:
    $ 30.12万
  • 项目类别:
    Standard Grant
CAREER: Algorithms and Fundamental Limitations for Sparse Control
职业:稀疏控制的算法和基本限制
  • 批准号:
    1351684
  • 财政年份:
    2014
  • 资助金额:
    $ 30.12万
  • 项目类别:
    Standard Grant

相似国自然基金

小分子代谢物Catechin与TRPV1相互作用激活外周感觉神经元介导尿毒症瘙痒的机制研究
  • 批准号:
    82371229
  • 批准年份:
    2023
  • 资助金额:
    49 万元
  • 项目类别:
    面上项目
DHEA抑制小胶质细胞Fis1乳酸化修饰减轻POCD的机制
  • 批准号:
    82301369
  • 批准年份:
    2023
  • 资助金额:
    30 万元
  • 项目类别:
    青年科学基金项目
SETDB1调控小胶质细胞功能及参与阿尔茨海默病发病机制的研究
  • 批准号:
    82371419
  • 批准年份:
    2023
  • 资助金额:
    49 万元
  • 项目类别:
    面上项目
PTBP1驱动H4K12la/BRD4/HIF1α复合物-PKM2正反馈环路促进非小细胞肺癌糖代谢重编程的机制研究及治疗方案探索
  • 批准号:
    82303616
  • 批准年份:
    2023
  • 资助金额:
    30 万元
  • 项目类别:
    青年科学基金项目

相似海外基金

CIF: Small: NSF-DST: Zak-OTFS - How to Make Communication and Radar Sensing More Predictable in 6G
CIF:小型:NSF-DST:Zak-OTFS - 如何使 6G 中的通信和雷达传感更具可预测性
  • 批准号:
    2342690
  • 财政年份:
    2024
  • 资助金额:
    $ 30.12万
  • 项目类别:
    Standard Grant
How to starve a parasite: Manipulating CoA biosynthesis to control Plasmodium development in the mosquito
如何让寄生虫挨饿:操纵 CoA 生物合成来控制蚊子体内疟原虫的发育
  • 批准号:
    10656980
  • 财政年份:
    2023
  • 资助金额:
    $ 30.12万
  • 项目类别:
CPS: Small: Learning How to Control: A Meta-Learning Approach for the Adaptive Control of Cyber-Physical Systems
CPS:小:学习如何控制:网络物理系统自适应控制的元学习方法
  • 批准号:
    2228092
  • 财政年份:
    2023
  • 资助金额:
    $ 30.12万
  • 项目类别:
    Standard Grant
An investigation of how filopodia can be exploited by peptide carriers for enhanced uptake of RNAi cargo for the treatment of HPV+ oral cancers.
研究肽载体如何利用丝状伪足来增强 RNAi 货物的摄取,从而治疗 HPV 口腔癌。
  • 批准号:
    10678166
  • 财政年份:
    2023
  • 资助金额:
    $ 30.12万
  • 项目类别:
Investigating how chemotherapeutic thiopurines inhibit telomerase elongation of telomeres
研究化疗硫嘌呤如何抑制端粒酶延长端粒
  • 批准号:
    10676638
  • 财政年份:
    2023
  • 资助金额:
    $ 30.12万
  • 项目类别:
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了