CIF: SMALL: Theoretical Foundations of Partially Observable Reinforcement Learning: Minimax Sample Complexity and Provably Efficient Algorithms

CIF:SMALL:部分可观察强化学习的理论基础:最小最大样本复杂性和可证明有效的算法

基本信息

  • 批准号:
    2315725
  • 负责人:
  • 金额:
    $ 48.37万
  • 依托单位:
  • 依托单位国家:
    美国
  • 项目类别:
    Standard Grant
  • 财政年份:
    2023
  • 资助国家:
    美国
  • 起止时间:
    2023-06-15 至 2026-05-31
  • 项目状态:
    未结题

项目摘要

Many reinforcement learning (RL) systems operate within environments that provide only partial observations and imperfect information to the agents. Despite notable empirical success, partially observable RL models still present considerable theoretical challenges, potentially posing significant risks to sensitive tasks. This project will design efficient learning algorithms and provide sharp sample complexity analyses for partially observable RL systems. The theoretical tools will build on a broad range of subjects, including machine learning, information theory, control theory, and high-dimensional statistics. The developed results will have impact on a variety of applications such as robotic control, autonomous driving, and strategic games. The investigator is committed to fostering diversity by actively recruiting and training students, particularly those from underrepresented minorities and women in Science, Technology, Engineering, and Math (STEM).This project will tackle the theoretical challenges in learning two partially observable RL models: partially observable Markov decision processes (POMDPs) and extensive-form games (EFGs). The main goal is to provide theoretical tools and new insights to developing algorithms and proving sharp statistical complexity bounds. The first component will focus on POMDPs, with the goal of closing the sample complexity gap of learning in the basic tabular setting and addressing the computational challenges by identifying structural conditions that admit planning efficiency. The second component will focus on EFGs, with the goal of designing near-optimal algorithms for three types of regret: external regret, Phi-regret, and dynamic regret. The proposed algorithms and sharp statistical complexity bounds will provide a solid theoretical foundation for future research of RL theorists and practitioners. These algorithms will be coded and tested within the OpenSpiel environment to evaluate their empirical performance.This award reflects NSF's statutory mission and has been deemed worthy of support through evaluation using the Foundation's intellectual merit and broader impacts review criteria.
许多强化学习(RL)系统在仅向代理提供部分观察和不完美信息的环境中运行。尽管在实证上取得了显着的成功,但部分可观察的强化学习模型仍然面临着相当大的理论挑战,可能对敏感任务构成重大风险。该项目将设计高效的学习算法,并为部分可观察的强化学习系统提供清晰的样本复杂性分析。理论工具将建立在广泛的学科基础上,包括机器学习、信息论、控制论和高维统计。所开发的成果将对机器人控制、自动驾驶和战略游戏等多种应用产生影响。研究人员致力于通过积极招募和培训学生来促进多样性,特别是那些来自科学、技术、工程和数学 (STEM) 领域代表性不足的少数族裔和女性的学生。该项目将解决学习两个部分可观察的 RL 模型的理论挑战:部分可观察马尔可夫决策过程(POMDP)和扩展形式博弈(EFG)。主要目标是为开发算法和证明尖锐的统计复杂性界限提供理论工具和新见解。第一个组成部分将重点关注 POMDP,其目标是缩小基本表格设置中学习的样本复杂性差距,并通过识别允许规划效率的结构条件来解决计算挑战。第二个部分将重点关注 EFG,目标是为三种类型的遗憾设计接近最优的算法:外部遗憾、Phi 遗憾和动态遗憾。所提出的算法和尖锐的统计复杂度界限将为强化学习理论家和实践者的未来研究提供坚实的理论基础。这些算法将在 OpenSpiel 环境中进行编码和测试,以评估其实证性能。该奖项反映了 NSF 的法定使命,并通过使用基金会的智力优点和更广泛的影响审查标准进行评估,被认为值得支持。

项目成果

期刊论文数量(1)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
Transformers as Statisticians: Provable In-Context Learning with In-Context Algorithm Selection
作为统计学家的 Transformers:通过上下文算法选择进行可证明的上下文学习
{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ patent.updateTime }}

Song Mei其他文献

A Deep Reinforcement Learning-Based Transcoder Selection Framework for Blockchain-Enabled Wireless D2D Transcoding
基于深度强化学习的转码器选择框架,用于支持区块链的无线 D2D 转码
  • DOI:
    10.1109/tcomm.2020.2974738
  • 发表时间:
    2020-02
  • 期刊:
  • 影响因子:
    8.3
  • 作者:
    Liu Mengting;Teng Yinglei;Yu F. Richard;Leung Victor C. M.;Song Mei
  • 通讯作者:
    Song Mei
Joint Routing and Resource Management in Energy Harvesting Aided Wireless Mesh Backhaul Networks
能量收集辅助无线网状回程网络中的联合路由和资源管理
  • DOI:
    10.6138/jit.2015.16.6.20150609b
  • 发表时间:
    2015-11
  • 期刊:
  • 影响因子:
    1.6
  • 作者:
    Wang Ya-Li;Wei Yi-Fei;Teng Ying-Lei;Song Mei;Wang Xiao-Jun
  • 通讯作者:
    Wang Xiao-Jun
Queue-aware energy minimisation through sparse beamforming in C-RAN
通过 C-RAN 中的稀疏波束成形实现队列感知能量最小化
  • DOI:
    10.1049/iet-com.2017.0492
  • 发表时间:
    2017-12
  • 期刊:
  • 影响因子:
    1.6
  • 作者:
    Ouyang Weiping;Teng Yinglei;Song Mei;Zhao Wanxin
  • 通讯作者:
    Zhao Wanxin
A study of SAR remote sensing of internal solitary waves in the north of the South China Sea: I. Simulation of internal tide transformation
南海北部内孤立波SAR遥感研究:一、内潮变换模拟
  • DOI:
  • 发表时间:
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Song Mei;Zhang Yuanling;Fan Zhisong
  • 通讯作者:
    Fan Zhisong
Research on Seamless Handover for WLAN with MIPv6
MIPv6 WLAN无缝切换研究

Song Mei的其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

{{ truncateString('Song Mei', 18)}}的其他基金

CAREER: Theoretical foundations for deep learning and large-scale AI models
职业:深度学习和大规模人工智能模型的理论基础
  • 批准号:
    2339904
  • 财政年份:
    2024
  • 资助金额:
    $ 48.37万
  • 项目类别:
    Continuing Grant
Mean Field Asymptotics in Statistical Inference: Variational Approach, Multiple Testing, and Predictive Inference
统计推断中的平均场渐进:变分方法、多重测试和预测推断
  • 批准号:
    2210827
  • 财政年份:
    2022
  • 资助金额:
    $ 48.37万
  • 项目类别:
    Continuing Grant

相似国自然基金

基于小增益理论的物联网聚合计算鲁棒稳定性分析
  • 批准号:
    62303112
  • 批准年份:
    2023
  • 资助金额:
    30 万元
  • 项目类别:
    青年科学基金项目
面向高阶谐振网络与复杂调制方式的谐振变换器统一多频率小信号建模理论研究
  • 批准号:
    52307196
  • 批准年份:
    2023
  • 资助金额:
    30 万元
  • 项目类别:
    青年科学基金项目
靶向异柠檬酸裂解酶(ICL1)的抗结核小分子共价抑制机理的理论计算研究
  • 批准号:
    22303075
  • 批准年份:
    2023
  • 资助金额:
    30 万元
  • 项目类别:
    青年科学基金项目
铀复合物多金属协同催化小分子活化机理的理论研究
  • 批准号:
    22303007
  • 批准年份:
    2023
  • 资助金额:
    30 万元
  • 项目类别:
    青年科学基金项目
基于翻译组学理论探究LncRNA H19编码多肽PELRM促进小胶质细胞活化介导电针巨刺改善膝关节术后疼痛的机制研究
  • 批准号:
    82305399
  • 批准年份:
    2023
  • 资助金额:
    30 万元
  • 项目类别:
    青年科学基金项目

相似海外基金

NSF-BSF: Collaborative Research: CIF: Small: Neural Estimation of Statistical Divergences: Theoretical Foundations and Applications to Communication Systems
NSF-BSF:协作研究:CIF:小型:统计差异的神经估计:通信系统的理论基础和应用
  • 批准号:
    2308445
  • 财政年份:
    2023
  • 资助金额:
    $ 48.37万
  • 项目类别:
    Standard Grant
NSF-BSF: Collaborative Research: CIF: Small: Neural Estimation of Statistical Divergences: Theoretical Foundations and Applications to Communication Systems
NSF-BSF:协作研究:CIF:小型:统计差异的神经估计:通信系统的理论基础和应用
  • 批准号:
    2308446
  • 财政年份:
    2023
  • 资助金额:
    $ 48.37万
  • 项目类别:
    Standard Grant
CIF: Small: A Theoretical Framework for Dynamic Collaborative Online Information Searching
CIF:小型:动态协作在线信息搜索的理论框架
  • 批准号:
    2008570
  • 财政年份:
    2020
  • 资助金额:
    $ 48.37万
  • 项目类别:
    Standard Grant
CIF:Small: Collaborative Research:Theoretical Foundation of Distributed Wireless Channel Access
CIF:Small:协作研究:分布式无线信道接入的理论基础
  • 批准号:
    1420608
  • 财政年份:
    2014
  • 资助金额:
    $ 48.37万
  • 项目类别:
    Standard Grant
CIF:Small: Collaborative Research:Theoretical Foundation of Distributed Wireless Channel Access
CIF:Small:协作研究:分布式无线信道接入的理论基础
  • 批准号:
    1420651
  • 财政年份:
    2014
  • 资助金额:
    $ 48.37万
  • 项目类别:
    Standard Grant
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了