Collaborative Research: CIF: Medium: Statistical and Algorithmic Foundations of Distributionally Robust Policy Learning

合作研究:CIF:媒介:分布式稳健政策学习的统计和算法基础

基本信息

  • 批准号:
    2312205
  • 负责人:
  • 金额:
    $ 40万
  • 依托单位:
  • 依托单位国家:
    美国
  • 项目类别:
    Continuing Grant
  • 财政年份:
    2023
  • 资助国家:
    美国
  • 起止时间:
    2023-10-01 至 2027-09-30
  • 项目状态:
    未结题

项目摘要

Efficient data-driven policy learning and deployment techniques are transforming many facets of our society as a result of their broad applicability in engineering, scientific and societal applications. Given the access to high-performance computing, the use of simulators and digital twins, for example, have emerged as practical alternatives to test and learn complex optimization policies. As a result, significant scholarly efforts have been devoted to this research area in the past decade. However, despite having made landmark progress, existing work in this area often makes a key (implicit) assumption; namely, that the environment in which the policy is trained will be the same as the environment in which the policy is deployed. Policies learned under this assumption can be fragile, as this assumption often does not hold in practical environments, either due to the simulator model specification or environment shifts. The goal of this project is to study statistical and algorithmic foundations for developing provably efficient robust policy learning in unknown environments, under a possibly misspecified generative model. The project studies comprehensive statistical and algorithmic foundations for distributionally robust policy learning in contextual bandits and reinforcement learning (RL) environments and develops statistically optimal and computationally efficient algorithms across a wide range of non-parametric distributional shifts. These provide a powerful framework for capturing model-agnostic environment changes, but at the same time, pose intellectual challenges as the unknown worst-case environment lies in an infinite-dimensional space. The presented program opens up several fundamental research directions that call for novel and principled developments. First, the project develops information-theoretic tools to understand the fundamental learning limits for distributionally robust policy learning and to characterize how the distributional uncertainty contributes to the difficulty of learning. Additionally, the project develops computationally efficient and statistically optimal estimation schemes for distributionally robust performance analysis of a given policy. Lastly, the project translates the efficiency gains in estimation due to learning a distributionally robust policy.This award reflects NSF's statutory mission and has been deemed worthy of support through evaluation using the Foundation's intellectual merit and broader impacts review criteria.
高效的数据驱动政策学习和部署技术由于在工程、科学和社会应用中的广泛适用性,正在改变我们社会的许多方面。例如,鉴于可以获得高性能计算,模拟器和数字孪生的使用已成为测试和学习复杂优化策略的实用替代方案。因此,在过去的十年里,大量的学术工作投入到了这一研究领域。然而,尽管取得了里程碑式的进展,该领域的现有工作常常做出关键(隐含)假设;即,训练策略的环境与部署策略的环境相同。在这种假设下学习的策略可能很脆弱,因为由于模拟器模型规范或环境变化,这种假设通常在实际环境中并不成立。该项目的目标是研究统计和算法基础,以便在未知环境中、在可能错误指定的生成模型下开发可证明有效的稳健政策学习。 该项目研究上下文强盗和强化学习 (RL) 环境中分布稳健的政策学习的综合统计和算法基础,并在各种非参数分布变化中开发统计上最优且计算高效的算法。这些为捕获与模型无关的环境变化提供了强大的框架,但同时也带来了智力挑战,因为未知的最坏情况环境位于无限维空间中。所提出的计划开辟了几个基础研究方向,需要新颖和原则性的发展。首先,该项目开发信息论工具,以了解分布稳健政策学习的基本学习限制,并描述分布不确定性如何导致学习难度。此外,该项目还开发了计算效率高且统计上最优的估计方案,用于对给定策略进行分布稳健的性能分析。最后,该项目通过学习分布稳健的政策而提高了估计效率。该奖项反映了 NSF 的法定使命,并通过使用基金会的智力优点和更广泛的影响审查标准进行评估,被认为值得支持。

项目成果

期刊论文数量(0)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ patent.updateTime }}

Zhengyuan Zhou其他文献

Power Control with Random Delays: Robust Feedback Averaging
具有随机延迟的功率控制:鲁棒反馈平均
Development of Hypoxia Trapping Enhanced BB2R-Targeted Radiopharmaceutics for Prostate Cancer
缺氧捕获增强型 BB2R 靶向放射性药物治疗前列腺癌的开发
  • DOI:
  • 发表时间:
    2024-09-14
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Zhengyuan Zhou
  • 通讯作者:
    Zhengyuan Zhou
Learning to Bid Optimally and Efficiently in Adversarial First-price Auctions
学习在对抗性第一价格拍卖中最优且高效地出价
  • DOI:
  • 发表时间:
    2020-07-09
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Yanjun Han;Zhengyuan Zhou;Aaron Flores;E. Ordentlich;T. Weissman
  • 通讯作者:
    T. Weissman
Sample Complexity of Variance-reduced Distributionally Robust Q-learning
方差减少的分布鲁棒 Q 学习的样本复杂度
  • DOI:
  • 发表时间:
    2023
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Shengbo Wang;Nian Si;J. Blanchet;Zhengyuan Zhou
  • 通讯作者:
    Zhengyuan Zhou
A Finite Sample Complexity Bound for Distributionally Robust Q-learning
分布式鲁棒 Q 学习的有限样本复杂度界限

Zhengyuan Zhou的其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

{{ truncateString('Zhengyuan Zhou', 18)}}的其他基金

Collaborative Research: CIF: Medium: An Information-Theoretic Foundation for Adaptive Bidding in First-Price Auctions
合作研究:CIF:媒介:一价拍卖中自适应出价的信息理论基础
  • 批准号:
    2106508
  • 财政年份:
    2021
  • 资助金额:
    $ 40万
  • 项目类别:
    Standard Grant

相似国自然基金

IGF-1R调控HIF-1α促进Th17细胞分化在甲状腺眼病发病中的机制研究
  • 批准号:
    82301258
  • 批准年份:
    2023
  • 资助金额:
    30 万元
  • 项目类别:
    青年科学基金项目
CTCFL调控IL-10抑制CD4+CTL旁观者激活促口腔鳞状细胞癌新辅助免疫治疗抵抗机制研究
  • 批准号:
    82373325
  • 批准年份:
    2023
  • 资助金额:
    49 万元
  • 项目类别:
    面上项目
RNA剪接因子PRPF31突变导致人视网膜色素变性的机制研究
  • 批准号:
    82301216
  • 批准年份:
    2023
  • 资助金额:
    30 万元
  • 项目类别:
    青年科学基金项目
血管内皮细胞通过E2F1/NF-kB/IL-6轴调控巨噬细胞活化在眼眶静脉畸形中的作用及机制研究
  • 批准号:
    82301257
  • 批准年份:
    2023
  • 资助金额:
    30 万元
  • 项目类别:
    青年科学基金项目
基于多元原子间相互作用的铝合金基体团簇调控与强化机制研究
  • 批准号:
    52371115
  • 批准年份:
    2023
  • 资助金额:
    50 万元
  • 项目类别:
    面上项目

相似海外基金

Collaborative Research: NSF-AoF: CIF: Small: AI-assisted Waveform and Beamforming Design for Integrated Sensing and Communication
合作研究:NSF-AoF:CIF:小型:用于集成传感和通信的人工智能辅助波形和波束成形设计
  • 批准号:
    2326622
  • 财政年份:
    2024
  • 资助金额:
    $ 40万
  • 项目类别:
    Standard Grant
Collaborative Research: NSF-AoF: CIF: Small: AI-assisted Waveform and Beamforming Design for Integrated Sensing and Communication
合作研究:NSF-AoF:CIF:小型:用于集成传感和通信的人工智能辅助波形和波束成形设计
  • 批准号:
    2326621
  • 财政年份:
    2024
  • 资助金额:
    $ 40万
  • 项目类别:
    Standard Grant
Collaborative Research: CIF: Small: Mathematical and Algorithmic Foundations of Multi-Task Learning
协作研究:CIF:小型:多任务学习的数学和算法基础
  • 批准号:
    2343600
  • 财政年份:
    2024
  • 资助金额:
    $ 40万
  • 项目类别:
    Standard Grant
Collaborative Research: CIF: Medium: Snapshot Computational Imaging with Metaoptics
合作研究:CIF:Medium:Metaoptics 快照计算成像
  • 批准号:
    2403123
  • 财政年份:
    2024
  • 资助金额:
    $ 40万
  • 项目类别:
    Standard Grant
Collaborative Research: NSF-AoF: CIF: Small: AI-assisted Waveform and Beamforming Design for Integrated Sensing and Communication
合作研究:NSF-AoF:CIF:小型:用于集成传感和通信的人工智能辅助波形和波束成形设计
  • 批准号:
    2326622
  • 财政年份:
    2024
  • 资助金额:
    $ 40万
  • 项目类别:
    Standard Grant
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了