Collaborative Research: AF: Small: Parallel Reinforcement Learning with Communication and Adaptivity Constraints

协作研究:AF:小型:具有通信和适应性约束的并行强化学习

基本信息

  • 批准号:
    2006591
  • 负责人:
  • 金额:
    $ 24.22万
  • 依托单位:
  • 依托单位国家:
    美国
  • 项目类别:
    Standard Grant
  • 财政年份:
    2020
  • 资助国家:
    美国
  • 起止时间:
    2020-10-01 至 2023-09-30
  • 项目状态:
    已结题

项目摘要

Reinforcement learning has witnessed great research advancement in recent years and achieved successes in many practical applications. However, reinforcement-learning algorithms also have the reputation for being data- and computation-hungry for large-scale applications. This project will address this issue by studying the important question of how to make reinforcement-learning algorithms scalable via introducing multiple learning agents and allowing them to collect data and learn optimal strategies collaboratively. The outcomes of this project will have impacts on numerous areas where reinforcement learning is used at a scale, e.g., multi-phase clinical trials, training autonomous-driving algorithms, crowdsourcing tasks, pricing, and assortment optimization for stores at different locations. The research products will be disseminated via talks at academic conferences and workshops, universities, industrial labs, and online media, and will also be integrated in two courses on the forefront of reinforcement learning and big-data algorithms.More technically, this project will study how to address the fundamental constraints on communication and adaptivity for the learning agents. In particular, this project will investigate a handful of collaborative learning models, including full communication, synchronized communication, synchronized communication with limited adaptivity, and asynchronized communication, and study the following general questions: (1) what is the fundamental advantage of allowing adaptivity in the parallel learning model; (2) are there inherent differences on the degree of parallelism between model-based and model-free reinforcement learning; (3) what is the impact of asynchronized communication; and (4) is it possible to communication-efficiently parallelize general algorithmic techniques in reinforcement learning? The team of researchers will address these questions by studying a set of core problems, including best arm(s) identification and regret minimization in multi-armed bandits, contextual bandits, finite-state Markov decision process (MDP) learning, reinforcement learning with function approximates, and coordinated exploration in MDPs. Through studying these questions, this project will bring new techniques, perspectives, and insight to communication-efficient parallel reinforcement learning. This project will also have a significant impact on a number of related research areas such as control theory, operations research, information theory and communication complexity, and multi-agent systems.This award reflects NSF's statutory mission and has been deemed worthy of support through evaluation using the Foundation's intellectual merit and broader impacts review criteria.
近年来,强化学习在许多实际应用中取得了成功,并取得了成功。 但是,加强学习算法也因大规模应用程序的数据和计算而享有声誉。 该项目将通过研究如何通过介绍多个学习代理并允许它们收集数据并协作学习最佳策略来扩展的强化学习算法的重要问题来解决这个问题。 该项目的结果将对许多领域有影响,例如,多相临床试验,培训自动驾驶算法,众包任务,定价和分类优化的商店。 研究产品将通过在学术会议和讲习班,大学,工业实验室和在线媒体上进行会谈来分散,并且还将集成在强化学习和大数据算法的最前沿的两门课程中。在技术上,该项目将研究如何针对学习和适应学习型的基本约束。 特别是,该项目将研究一些协作学习模型,包括完整的沟通,同步的沟通,有限的适应性和异步交流,并研究以下一般问题:(1)在平行学习模型中允许适应性的基本优势是什么; (2)在基于模型和无模型的增强学习之间的并行程度上存在固有的差异; (3)异步通信的影响是什么? (4)是否有可能在增强学习中有效地使一般算法技术平行? 研究人员团队将通过研究一组核心问题来解决这些问题,包括最佳武器识别和遗憾的多臂匪徒,上下文匪徒,有限状态马尔可夫决策过程(MDP)学习,具有功能近似值的增强学习以及MDP中的协调探索。 通过研究这些问题,该项目将为沟通和平行的增强学习带来新的技术,观点和洞察力。 该项目还将对许多相关研究领域(例如控制理论,运营研究,信息理论和沟通复杂性以及多代理系统)产生重大影响。该奖项反映了NSF的法定任务,并被认为是值得通过基金会的智力优点和更广泛影响的评估来通过评估来支持的。

项目成果

期刊论文数量(8)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
Near-Optimal MNL Bandits Under Risk Criteria
风险标准下的近乎最优 MNL 强盗
Variance-Dependent Best Arm Identification
  • DOI:
  • 发表时间:
    2021-06
  • 期刊:
  • 影响因子:
    0
  • 作者:
    P. Lu;Chao Tao;Xiaojin Zhang
  • 通讯作者:
    P. Lu;Chao Tao;Xiaojin Zhang
Instance-Sensitive Algorithms for Pure Exploration in Multinomial Logit Bandit
  • DOI:
    10.1609/aaai.v36i7.20669
  • 发表时间:
    2020-12
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Nikolai Karpov;Qin Zhang
  • 通讯作者:
    Nikolai Karpov;Qin Zhang
Meta Proximal Policy Optimization for Cooperative Multi-Agent Continuous Control
Collaborative Top Distribution Identifications with Limited Interaction
交互有限的协作顶级分布识别
{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ patent.updateTime }}

Qin Zhang其他文献

Catalyst- and additive-free three-component construction of isoxazolidinyl nucleosides and azoles via 1,3-dipolar cycloaddition
通过 1,3-偶极环加成构建异恶唑烷基核苷和唑类的无催化剂和无添加剂三组分
  • DOI:
    10.1039/d3nj05276a
  • 发表时间:
    2024
  • 期刊:
  • 影响因子:
    3.3
  • 作者:
    Xinyufei Yuan;Hang Gao;Xing Li;Qin Zhang;Wenwen Chen;Hui Wang
  • 通讯作者:
    Hui Wang
Effect of Sr2+ substitution on the Raman spectrum, phase composition and microwave dielectric properties of CaMg1−Sr Si2O6 ceramics
Sr2取代对CaMg1-Sr Si2O6陶瓷拉曼光谱、物相组成及微波介电性能的影响
  • DOI:
    10.1016/j.ceramint.2021.10.177
  • 发表时间:
    2021-10
  • 期刊:
  • 影响因子:
    5.2
  • 作者:
    Fangyi Huang;Hua Su;Qin Zhang;Xiaohui Wu;Xiaoli Tang
  • 通讯作者:
    Xiaoli Tang
Types and genesis of the Neoproterozoic glauconites, Longshan area, Changping District, Beijing
北京市昌平区龙山地区新元古代海绿岩类型及成因
  • DOI:
    10.1016/j.geoen.2022.211412
  • 发表时间:
    2023
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Qin Zhang;Chen Zhou;Shifa Zhu;Hanyun Tian;Ronald J Steel;Zeping Song
  • 通讯作者:
    Zeping Song
The Spatially Separated Polarization Sensitive FDA-MIMO Radar: A New Antenna Structure for Unambiguous Parameter Estimation
空间分离偏振敏感 FDA-MIMO 雷达:一种用于明确参数估计的新型天线结构
  • DOI:
    10.1051/matecconf/201817302015
  • 发表时间:
    2018
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Binbin Li;Weixiong Bai;Qin Zhang;Guimei Zheng;Mingliang Zhang;Pengcheng Wan
  • 通讯作者:
    Pengcheng Wan
A Vertical Search Engine Based on Visual and Textual Features
基于视觉和文本特征的垂直搜索引擎
  • DOI:
    10.1007/978-3-642-14533-9_49
  • 发表时间:
    2010
  • 期刊:
  • 影响因子:
    6.7
  • 作者:
    Kun Wu;Hai Jin;Ran Zheng;Qin Zhang
  • 通讯作者:
    Qin Zhang

Qin Zhang的其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

{{ truncateString('Qin Zhang', 18)}}的其他基金

CAREER:Foundation of Communication-Efficient Distributed Computation and Monitoring
职业:通信高效的分布式计算和监控的基础
  • 批准号:
    1844234
  • 财政年份:
    2019
  • 资助金额:
    $ 24.22万
  • 项目类别:
    Continuing Grant
BIGDATA: Collaborative Research: F: Efficient Distributed Computation of Large-Scale Graph Problems in Epidemiology and Contagion Dynamics
BIGDATA:协作研究:F:流行病学和传染动力学中大规模图问题的高效分布式计算
  • 批准号:
    1633215
  • 财政年份:
    2016
  • 资助金额:
    $ 24.22万
  • 项目类别:
    Standard Grant
AF: Small: Redundancy exploiting algorithms for high throughput genomics
AF:小:利用冗余算法实现高通量基因组学
  • 批准号:
    1619081
  • 财政年份:
    2016
  • 资助金额:
    $ 24.22万
  • 项目类别:
    Standard Grant
AF: Small: Efficient Algorithms for Querying Noisy Distributed/Streaming Datasets
AF:小:查询嘈杂分布式/流数据集的高效算法
  • 批准号:
    1525024
  • 财政年份:
    2015
  • 资助金额:
    $ 24.22万
  • 项目类别:
    Standard Grant

相似国自然基金

AF9通过ARRB2-MRGPRB2介导肠固有肥大细胞活化促进重症急性胰腺炎发生MOF的研究
  • 批准号:
    82300739
  • 批准年份:
    2023
  • 资助金额:
    30 万元
  • 项目类别:
    青年科学基金项目
剪接因子U2AF1突变在急性髓系白血病原发耐药中的机制研究
  • 批准号:
    82370157
  • 批准年份:
    2023
  • 资助金额:
    49 万元
  • 项目类别:
    面上项目
间充质干细胞微粒通过U2AF1负调控pDC活化改善系统性红斑狼疮的机制研究
  • 批准号:
    82302029
  • 批准年份:
    2023
  • 资助金额:
    30 万元
  • 项目类别:
    青年科学基金项目
circPOLB-MYC-U2AF2正反馈环路上调FSCN1促进舌鳞状细胞癌进展的作用研究
  • 批准号:
  • 批准年份:
    2022
  • 资助金额:
    30 万元
  • 项目类别:
    青年科学基金项目
tsRNA-14765结合U2AF2抑制巨噬细胞自噬调节铁死亡对动脉粥样硬化的影响及机制研究
  • 批准号:
    82270494
  • 批准年份:
    2022
  • 资助金额:
    52.00 万元
  • 项目类别:
    面上项目

相似海外基金

Collaborative Research: AF: Medium: The Communication Cost of Distributed Computation
合作研究:AF:媒介:分布式计算的通信成本
  • 批准号:
    2402836
  • 财政年份:
    2024
  • 资助金额:
    $ 24.22万
  • 项目类别:
    Continuing Grant
Collaborative Research: AF: Medium: Foundations of Oblivious Reconfigurable Networks
合作研究:AF:媒介:遗忘可重构网络的基础
  • 批准号:
    2402851
  • 财政年份:
    2024
  • 资助金额:
    $ 24.22万
  • 项目类别:
    Continuing Grant
Collaborative Research: AF: Small: New Directions in Algorithmic Replicability
合作研究:AF:小:算法可复制性的新方向
  • 批准号:
    2342244
  • 财政年份:
    2024
  • 资助金额:
    $ 24.22万
  • 项目类别:
    Standard Grant
Collaborative Research: AF: Small: Exploring the Frontiers of Adversarial Robustness
合作研究:AF:小型:探索对抗鲁棒性的前沿
  • 批准号:
    2335411
  • 财政年份:
    2024
  • 资助金额:
    $ 24.22万
  • 项目类别:
    Standard Grant
NSF-BSF: Collaborative Research: AF: Small: Algorithmic Performance through History Independence
NSF-BSF:协作研究:AF:小型:通过历史独立性实现算法性能
  • 批准号:
    2420942
  • 财政年份:
    2024
  • 资助金额:
    $ 24.22万
  • 项目类别:
    Standard Grant
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了