IIS:RI Theoretical Foundations of Reinforcement Learning: From Tabula Rasa to Function Approximation
IIS:RI 强化学习的理论基础:从白板到函数逼近
基本信息
- 批准号:2110170
- 负责人:
- 金额:$ 50万
- 依托单位:
- 依托单位国家:美国
- 项目类别:Standard Grant
- 财政年份:2021
- 资助国家:美国
- 起止时间:2021-10-01 至 2024-09-30
- 项目状态:已结题
- 来源:
- 关键词:
项目摘要
Reinforcement learning, a technique that trains intelligent agents to make decisions, has become the central algorithmic paradigm for various applications, such as robotics, healthcare, manufacturing production, game playing, and transportation. However, reinforcement learning is equally infamous for demanding significant amounts of data and computing resources. This project aims to contribute to the fundamental understanding of reinforcement learning to reveal its inherent difficulties and develop efficient algorithms with strong theoretical guarantees. The results of the project are readily applicable to solving practical resource-hungry problems. The success of this project also requires new algorithmic techniques and mathematical tools in a variety of disciplines. An education plan is integrated into this project; the investigator will develop new courses, mentor students, organize workshops, and deliver lessons to high school students through the University of Washington’s Partner School program.This project has two major components. The first thrust studies the most canonical setting, tabula rasa reinforcement learning. The investigator will identify fundamental limits and develop optimal algorithms for several problems of both theoretical and practical interests: worst-case complexity, adaptation to problem structure, and data collection for batch RL. The second thrust is motivated by the modern usage of RL, where function approximation is employed for generalization over a large state space. The investigator will systematically examine the necessary and sufficient conditions that permit efficient learning algorithms for three of the most popular function approximation schemes: value-based, policy-based, and model-based. For both thrusts, the investigator will utilize the inherent combinatorial structures of reinforcement learning to characterize its fundamental hardness and design efficient algorithms. In addition to theoretical developments, the project also aims to implement all algorithms developed as open-source software and evaluate them on benchmark simulation environments.This award reflects NSF's statutory mission and has been deemed worthy of support through evaluation using the Foundation's intellectual merit and broader impacts review criteria.
强化学习是一种训练智能代理做出决策的技术,已成为用于各种应用程序的中心算法范式,例如机器人技术,医疗保健,制造业生产,游戏和运输。但是,强化学习对于要求大量的数据和计算资源而同样臭名昭著。该项目旨在为强化学习的基本理解做出贡献,以揭示其固有的困难,并以强大的理论保证来开发有效的算法。该项目的结果很容易适用于解决实用的渴望资源问题。该项目的成功还需要各种学科的新算法技术和数学工具。该项目融入了一个教育计划;调查员将通过华盛顿大学合作伙伴学校计划开发新课程,精神学生,组织研讨会,并为高中生提供课程。该项目有两个主要组成部分。第一个推力研究最规范的环境,Tabula Rasa增强学习。研究人员将确定基本限制,并为理论和实际兴趣的几个问题开发最佳算法:最差的复杂性,对问题结构的适应性以及批处理RL的数据收集。第二个推力是由RL的现代用法激发的,在大型状态空间上,使用函数近似来概括。研究者将系统地检查必要和充分的条件,这些条件允许三种最流行的功能近似方案有效学习算法:基于价值,基于策略和基于模型。对于这两个推力,研究者将利用强化学习的继承组合结构来表征其基本硬度和设计有效算法。除了理论发展外,该项目还旨在实施作为开源软件开发的所有算法并在基准模拟环境中评估它们。该奖项反映了NSF的法定任务,并被认为是通过基金会的智力优点和更广泛的影响标准通过评估来获得支持的。
项目成果
期刊论文数量(8)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
Improved Variance-Aware Confidence Sets for Linear Bandits and Linear Mixture MDP
- DOI:
- 发表时间:2021-01
- 期刊:
- 影响因子:0
- 作者:Zihan Zhang;Jiaqi Yang;Xiangyang Ji;S. Du
- 通讯作者:Zihan Zhang;Jiaqi Yang;Xiangyang Ji;S. Du
Stochastic Shortest Path: Minimax, Parameter-Free and Towards Horizon-Free Regret
- DOI:
- 发表时间:2021-04
- 期刊:
- 影响因子:0
- 作者:Jean Tarbouriech;Runlong Zhou;S. Du;Matteo Pirotta;M. Valko;A. Lazaric
- 通讯作者:Jean Tarbouriech;Runlong Zhou;S. Du;Matteo Pirotta;M. Valko;A. Lazaric
Provably Efficient Policy Optimization for Two-Player Zero-Sum Markov Games
- DOI:
- 发表时间:2021-02
- 期刊:
- 影响因子:0
- 作者:Yulai Zhao;Yuandong Tian;Jason D. Lee;S. Du
- 通讯作者:Yulai Zhao;Yuandong Tian;Jason D. Lee;S. Du
First-Order Regret in Reinforcement Learning with Linear Function Approximation: A Robust Estimation Approach
- DOI:
- 发表时间:2021-12
- 期刊:
- 影响因子:0
- 作者:Andrew J. Wagenmaker;Yifang Chen;Max Simchowitz;S. Du;Kevin G. Jamieson
- 通讯作者:Andrew J. Wagenmaker;Yifang Chen;Max Simchowitz;S. Du;Kevin G. Jamieson
Nearly Horizon-Free Offline Reinforcement Learning
- DOI:
- 发表时间:2021-03
- 期刊:
- 影响因子:0
- 作者:Tongzheng Ren;Jialian Li-;Bo Dai;S. Du;S. Sanghavi
- 通讯作者:Tongzheng Ren;Jialian Li-;Bo Dai;S. Du;S. Sanghavi
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
数据更新时间:{{ journalArticles.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ monograph.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ sciAawards.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ conferencePapers.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ patent.updateTime }}
Simon Du其他文献
Decoding-Time Language Model Alignment with Multiple Objectives
具有多个目标的解码时语言模型对齐
- DOI:
- 发表时间:
2024 - 期刊:
- 影响因子:0
- 作者:
Ruizhe Shi;Yifang Chen;Yushi Hu;Alisa Liu;Hanna Hajishirzi;Noah A. Smith;Simon Du - 通讯作者:
Simon Du
sample-complexity of Estimating Convolutional and Recurrent Neural Networks How Many Samples are Needed to Estimate a Convolutional or Recurrent Neural Network ? ∗
估计卷积和循环神经网络的样本复杂度 估计卷积或循环神经网络需要多少样本?
- DOI:
- 发表时间:
2019 - 期刊:
- 影响因子:0
- 作者:
Simon Du - 通讯作者:
Simon Du
Simon Du的其他文献
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
{{ truncateString('Simon Du', 18)}}的其他基金
CAREER: Toward a Foundation of Over-Parameterization
职业生涯:迈向超参数化的基础
- 批准号:
2143493 - 财政年份:2022
- 资助金额:
$ 50万 - 项目类别:
Continuing Grant
Collaborative Research: CIF: Medium: MoDL:Toward a Mathematical Foundation of Deep Reinforcement Learning
合作研究:CIF:媒介:MoDL:迈向深度强化学习的数学基础
- 批准号:
2212261 - 财政年份:2022
- 资助金额:
$ 50万 - 项目类别:
Standard Grant
Collaborative Research: SCALE MoDL: Adaptivity of Deep Neural Networks
合作研究:SCALE MoDL:深度神经网络的适应性
- 批准号:
2134106 - 财政年份:2021
- 资助金额:
$ 50万 - 项目类别:
Continuing Grant
相似国自然基金
跨膜蛋白LRP5胞外域调控膜受体TβRI促钛表面BMSCs归巢、分化的研究
- 批准号:82301120
- 批准年份:2023
- 资助金额:30 万元
- 项目类别:青年科学基金项目
基于“免疫-神经”网络探讨眼针活化CI/RI大鼠MC靶向H3R调节“免疫监视”的抗炎机制
- 批准号:82374375
- 批准年份:2023
- 资助金额:51 万元
- 项目类别:面上项目
Dectin-2通过促进FcεRI聚集和肥大细胞活化加剧哮喘发作的机制研究
- 批准号:82300022
- 批准年份:2023
- 资助金额:30 万元
- 项目类别:青年科学基金项目
TβRI的UFM化修饰调控TGF-β信号通路和乳腺癌转移的作用及机制研究
- 批准号:32200568
- 批准年份:2022
- 资助金额:30.00 万元
- 项目类别:青年科学基金项目
藏药甘肃蚤缀β-咔啉生物碱类TβRI抑制剂的发现及其抗肺纤维化作用机制研究
- 批准号:
- 批准年份:2022
- 资助金额:30 万元
- 项目类别:青年科学基金项目
相似海外基金
Research Infrastructure: Mid-scale RI-1 (MI:IP): X-rays for Life Sciences, Environmental Sciences, Agriculture, and Plant sciences (XLEAP)
研究基础设施:中型 RI-1 (MI:IP):用于生命科学、环境科学、农业和植物科学的 X 射线 (XLEAP)
- 批准号:
2330043 - 财政年份:2024
- 资助金额:
$ 50万 - 项目类别:
Cooperative Agreement
CRII: RI: Deep neural network pruning for fast and reliable visual detection in self-driving vehicles
CRII:RI:深度神经网络修剪,用于自动驾驶车辆中快速可靠的视觉检测
- 批准号:
2412285 - 财政年份:2024
- 资助金额:
$ 50万 - 项目类别:
Standard Grant
NSF Engines Development Award: Accelerating A Just Energy Transition Through Innovative Nature-Inclusive Offshore Wind Farms (CT,DE,MA,MD,NJ,RI,VA)
NSF 发动机开发奖:通过创新的自然包容性海上风电场加速公正的能源转型(康涅狄格州、特拉华州、马里兰州、马里兰州、新泽西州、罗德岛州、弗吉尼亚州)
- 批准号:
2315558 - 财政年份:2024
- 资助金额:
$ 50万 - 项目类别:
Cooperative Agreement
新しい口腔癌センチネルリンパ節マッピング法の確立-RI法との非劣性試験-
口腔癌前哨淋巴结定位新方法的建立-RI法非劣效性检验-
- 批准号:
24K20038 - 财政年份:2024
- 资助金额:
$ 50万 - 项目类别:
Grant-in-Aid for Early-Career Scientists
医療用RIの大量製造に向けた大強度He二価ECRイオン源の研究開発
医用RI量产用高强度He二价ECR离子源研发
- 批准号:
24KJ1107 - 财政年份:2024
- 资助金额:
$ 50万 - 项目类别:
Grant-in-Aid for JSPS Fellows