CIF: Small: Reinforcement Learning with Function Approximation: Convergent Algorithms and Finite-sample Analysis
CIF:小型:带有函数逼近的强化学习:收敛算法和有限样本分析
基本信息
- 批准号:2007783
- 负责人:
- 金额:$ 33万
- 依托单位:
- 依托单位国家:美国
- 项目类别:Standard Grant
- 财政年份:2020
- 资助国家:美国
- 起止时间:2020-10-01 至 2024-09-30
- 项目状态:已结题
- 来源:
- 关键词:
项目摘要
The recent success of a machine-learning technique called reinforcement learning in benchmark tasks suggests a potential revolutionary advance in practical applications, and has dramatically boosted the interest in this technique. However, common algorithms that use this approach are highly data-inefficient, leading to impressive results only on simulated systems, where an infinite amount of data can be simulated. For example, for online tasks that most humans pick up within a few minutes, reinforcement learning algorithms take much longer to reach human-level performance. A good reinforcement learning algorithm called "Rainbow deep Q-network" needs about 18 million frames of simulation data to beat human in performance for the simplest of online tasks. This amount of data corresponds to about 80 person-hours of online experience. This level of data requirements limits the application of reinforcement learning algorithms in many practical applications that only have a limited amount of data. Theoretical understanding of how much data is needed for effective reinforcement learning is still very limited. This project aims to reduce the data requirements to train reinforcement learning algorithms by developing a comprehensive methodology for reinforcement learning algorithm design and analyzing convergence rates, which will in turn motivate design of fast and stable reinforcement learning algorithms. This project will have a direct impact on various engineering and science applications, e.g., the financial market, business strategy planning, industrial automation and online advertising.This project will take a fresh perspective of using tools and concepts from both optimization and reinforcement learning. The following thrusts will be investigated in an increasing order of difficulty. 1) Linear function approximation: tools and insights will be developed to tackle challenges of non-smoothness and non-convexity in control problems. 2) General function approximation: new challenge of non-linearity will be addressed. 3) Neural function approximation: convergence to globally and/or universally optimal solutions will be investigated. In each of the three thrusts, new algorithms will be designed, and their convergence rates will be characterized. These results will be further used as guideline for parameter tuning, and to motivate design of fast and convergent algorithms.This award reflects NSF's statutory mission and has been deemed worthy of support through evaluation using the Foundation's intellectual merit and broader impacts review criteria.
最近,一种称为强化学习的机器学习技术在基准任务中取得的成功表明了实际应用中潜在的革命性进步,并极大地提高了人们对该技术的兴趣。然而,使用这种方法的常见算法的数据效率非常低,只有在可以模拟无限量数据的模拟系统上才能产生令人印象深刻的结果。例如,对于大多数人在几分钟内完成的在线任务,强化学习算法需要更长的时间才能达到人类水平的表现。一种名为“Rainbow Deep Q-network”的优秀强化学习算法需要大约 1800 万帧模拟数据,才能在最简单的在线任务中击败人类。这一数据量相当于约80人小时的在线体验。这种级别的数据要求限制了强化学习算法在许多数据量有限的实际应用中的应用。对于有效的强化学习需要多少数据的理论理解仍然非常有限。该项目旨在通过开发强化学习算法设计和分析收敛速度的综合方法来减少训练强化学习算法的数据需求,从而推动快速、稳定的强化学习算法的设计。该项目将对各种工程和科学应用产生直接影响,例如金融市场、业务战略规划、工业自动化和在线广告。该项目将以全新的视角使用优化和强化学习的工具和概念。以下主旨将按照难度递增的顺序进行研究。 1)线性函数逼近:将开发工具和见解来解决控制问题中的非平滑性和非凸性挑战。 2)一般函数逼近:将解决非线性的新挑战。 3)神经函数逼近:将研究全局和/或普遍最优解的收敛性。在这三个主旨中,将设计新的算法,并表征它们的收敛速度。这些结果将进一步用作参数调整的指南,并激励快速收敛算法的设计。该奖项反映了 NSF 的法定使命,并通过使用基金会的智力优点和更广泛的影响审查标准进行评估,被认为值得支持。
项目成果
期刊论文数量(13)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
Online Robust Reinforcement Learning with Model Uncertainty
具有模型不确定性的在线鲁棒强化学习
- DOI:10.1016/j.ijmachtools.2005.01.022
- 发表时间:2021-09-29
- 期刊:
- 影响因子:0
- 作者:Yue Wang;Shaofeng Zou
- 通讯作者:Shaofeng Zou
Model-Free Robust Average-Reward Reinforcement Learning
无模型鲁棒平均奖励强化学习
- DOI:
- 发表时间:2023-01
- 期刊:
- 影响因子:0
- 作者:Wang, Y;Velasquez, A.;Atia, G.;Prater;Zou, S.
- 通讯作者:Zou, S.
Sample and Communication-Efficient Decentralized Actor-Critic Algorithms with Finite-Time Analysis
具有有限时间分析的样本和通信高效的去中心化 Actor-Critic 算法
- DOI:
- 发表时间:2022-01
- 期刊:
- 影响因子:0
- 作者:Chen, Z.;Zhou, Y.;Chen, R.;Zou, S.
- 通讯作者:Zou, S.
Non-Asymptotic Analysis for Two Time-scale TDC with General Smooth Function Approximation
一般光滑函数逼近的两个时间尺度TDC的非渐近分析
- DOI:
- 发表时间:2021-12
- 期刊:
- 影响因子:0
- 作者:Wang; Yue and
- 通讯作者:Yue and
Robust Average-Reward Markov Decision Processes
鲁棒平均奖励马尔可夫决策过程
- DOI:
- 发表时间:2023-01
- 期刊:
- 影响因子:0
- 作者:Wang, Y.;Velasquez, A.;Atia, G.;Prater;Zou, S.
- 通讯作者:Zou, S.
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
数据更新时间:{{ journalArticles.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ monograph.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ sciAawards.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ conferencePapers.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ patent.updateTime }}
Shaofeng Zou其他文献
Sequential (Quickest) Change Detection: Classical Results and New Directions
顺序(最快)变化检测:经典结果和新方向
- DOI:
10.1109/jsait.2021.3072962 - 发表时间:
2021-04-09 - 期刊:
- 影响因子:0
- 作者:
Liyan Xie;Shaofeng Zou;Yao Xie;V. Veeravalli - 通讯作者:
V. Veeravalli
Asymptotic optimality of D-CuSum for quickest change detection under transient dynamics
D-CuSum 的渐近最优性用于瞬态动态下最快的变化检测
- DOI:
- 发表时间:
2017 - 期刊:
- 影响因子:0
- 作者:
Shaofeng Zou;Georgios Fellouris;V. Veeravalli - 通讯作者:
V. Veeravalli
Layered decoding and secrecy over degraded broadcast channels
降级广播信道的分层解码和保密
- DOI:
- 发表时间:
2013 - 期刊:
- 影响因子:0
- 作者:
Shaofeng Zou;Yingbin Liang;L. Lai;S. Shamai - 通讯作者:
S. Shamai
Linear Complexity Exponentially Consistent Tests for Outlying Sequence Detection
离群序列检测的线性复杂度指数一致测试
- DOI:
- 发表时间:
2017 - 期刊:
- 影响因子:0
- 作者:
Yuheng Bu;Shaofeng Zou;V. Veeravalli - 通讯作者:
V. Veeravalli
K-user degraded broadcast channel with secrecy outside a bounded range
K 用户降级广播信道,其保密性超出有限范围
- DOI:
- 发表时间:
2016 - 期刊:
- 影响因子:0
- 作者:
Shaofeng Zou;Yingbin Liang;L. Lai;H. Poor;S. Shamai - 通讯作者:
S. Shamai
Shaofeng Zou的其他文献
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
{{ truncateString('Shaofeng Zou', 18)}}的其他基金
CAREER: Robust Reinforcement Learning Under Model Uncertainty: Algorithms and Fundamental Limits
职业:模型不确定性下的鲁棒强化学习:算法和基本限制
- 批准号:
2337375 - 财政年份:2024
- 资助金额:
$ 33万 - 项目类别:
Continuing Grant
CCSS: Collaborative Research: Quickest Threat Detection in Adversarial Sensor Networks
CCSS:协作研究:对抗性传感器网络中最快的威胁检测
- 批准号:
2112693 - 财政年份:2021
- 资助金额:
$ 33万 - 项目类别:
Standard Grant
Collaborative Research: CIF: Medium: Emerging Directions in Robust Learning and Inference
协作研究:CIF:媒介:稳健学习和推理的新兴方向
- 批准号:
2106560 - 财政年份:2021
- 资助金额:
$ 33万 - 项目类别:
Continuing Grant
CRII: CIF: Dynamic Network Event Detection with Time-Series Data
CRII:CIF:使用时间序列数据进行动态网络事件检测
- 批准号:
1948165 - 财政年份:2020
- 资助金额:
$ 33万 - 项目类别:
Standard Grant
相似国自然基金
ALKBH5介导的SOCS3-m6A去甲基化修饰在颅脑损伤后小胶质细胞炎性激活中的调控作用及机制研究
- 批准号:82301557
- 批准年份:2023
- 资助金额:30 万元
- 项目类别:青年科学基金项目
miRNA前体小肽miPEP在葡萄低温胁迫抗性中的功能研究
- 批准号:
- 批准年份:2023
- 资助金额:50 万元
- 项目类别:
PKM2苏木化修饰调节非小细胞肺癌起始细胞介导的耐药生态位的机制研究
- 批准号:82372852
- 批准年份:2023
- 资助金额:49 万元
- 项目类别:面上项目
基于翻译组学理论探究LncRNA H19编码多肽PELRM促进小胶质细胞活化介导电针巨刺改善膝关节术后疼痛的机制研究
- 批准号:82305399
- 批准年份:2023
- 资助金额:30 万元
- 项目类别:青年科学基金项目
CLDN6高表达肿瘤细胞亚群在非小细胞肺癌ICB治疗抗性形成中的作用及机制研究
- 批准号:82373364
- 批准年份:2023
- 资助金额:49 万元
- 项目类别:面上项目
相似海外基金
CIF: Small: How Much of Reinforcement Learning is Gradient Descent?
CIF:小:强化学习中有多少是梯度下降?
- 批准号:
2245059 - 财政年份:2023
- 资助金额:
$ 33万 - 项目类别:
Standard Grant
CIF: Small: Accelerating Stochastic Approximation for Optimization and Reinforcement Learning
CIF:小型:加速优化和强化学习的随机逼近
- 批准号:
2306023 - 财政年份:2023
- 资助金额:
$ 33万 - 项目类别:
Standard Grant
CIF: SMALL: Theoretical Foundations of Partially Observable Reinforcement Learning: Minimax Sample Complexity and Provably Efficient Algorithms
CIF:SMALL:部分可观察强化学习的理论基础:最小最大样本复杂性和可证明有效的算法
- 批准号:
2315725 - 财政年份:2023
- 资助金额:
$ 33万 - 项目类别:
Standard Grant
CIF: Small: Accelerating Stochastic Approximation for Optimization and Reinforcement Learning
CIF:小型:加速优化和强化学习的随机逼近
- 批准号:
2306023 - 财政年份:2023
- 资助金额:
$ 33万 - 项目类别:
Standard Grant
CIF: Small: Adversarially Robust Reinforcement Learning: Attack, Defense, and Analysis
CIF:小型:对抗性鲁棒强化学习:攻击、防御和分析
- 批准号:
2232907 - 财政年份:2023
- 资助金额:
$ 33万 - 项目类别:
Standard Grant