RI: Small: Coordination in tightly coupled domains: Stepping stone rewards to induce the correct joint actions

RI:小:紧密耦合领域中的协调:垫脚石奖励以诱导正确的联合行动

基本信息

  • 批准号:
    1815886
  • 负责人:
  • 金额:
    $ 40万
  • 依托单位:
  • 依托单位国家:
    美国
  • 项目类别:
    Standard Grant
  • 财政年份:
    2018
  • 资助国家:
    美国
  • 起止时间:
    2018-09-01 至 2023-08-31
  • 项目状态:
    已结题

项目摘要

This project introduces a new multiagent learning approach that leads to coordinated behavior in tightly coupled domains, that is, in domains where all agents must do the right thing at the right time for the team to achieve its goals. For example, getting a team of agents to lift and move an object heavier than the payload capacity of any single agent requires a sufficient number of agents to perform the correct action at the correct time. Unfortunately, most current learning methods fail in such situations because they rely on reinforcing the correct agent behavior only after the agents stumble upon the right actions. But what if the agents never jointly find the right actions? This project addresses this issue by introducing "stepping-stone rewards" that incentivize agents to perform the right actions even if their teammates have not yet found the correct complementary actions. The impact of this project will be to create larger and more capable multiagent teams that can be deployed in industry (such as factory robots that are not limited to a single task), in the field (such as autonomous search and rescue systems), in education (such as interactive learning via online gameplay) and in the home (such as networks of smart appliances).The main technical contribution of this project is to shift the learning problem faced by an agent from "did I take the correct action?" to "would my action have been correct had other agents taken the complementary action?" In tightly coupled multiagent domains, the first question results in very little positive feedback, creating a difficult to impossible learning problem. The new stepping stone rewards leverage hypothetical partners (partners that are surmised by an agent to explore the joint-action space) to overcome this difficulty by assessing the potential benefits of a particular action. Intuitively, stepping-stone rewards create a gradient for the agents to follow to enable fast and efficient learning in tightly coupled domains.This award reflects NSF's statutory mission and has been deemed worthy of support through evaluation using the Foundation's intellectual merit and broader impacts review criteria.
该项目介绍了一种新的多种学习方法,该方法导致紧密耦合的域中的协调行为,也就是说,在所有代理商必须在正确的时间做正确的事情才能实现其目标的域中。例如,让一组代理团队提起和移动比任何单个代理的有效载荷能力更重的对象需要足够数量的代理在正确的时间执行正确的操作。不幸的是,当前大多数学习方法在这种情况下失败了,因为它们仅在代理人偶然发现正确的动作之后才能加强正确的代理行为。但是,如果代理商从未共同找到正确的行动怎么办?该项目通过引入“垫脚石奖励”来解决这个问题,即使他们的队友尚未找到正确的互补行动,也激励代理人执行正确的行动。该项目的影响将是创建可以在行业中部署的更大,更有能力的多种团队(例如不限于单个任务的工厂机器人),在教育中(例如自主搜索和救援系统),在教育中(例如通过在线游戏玩法进行交互式学习)以及在家中(例如,智能设备的网络)对“对智能设备的贡献”进行了“对我的贡献”, “如果其他特工采取了互补行动,我的行动是否正确?”在紧密耦合的多基因域中,第一个问题导致很少的积极反馈,从而造成了难以实现的学习问题。新的垫脚石奖励通过评估特定行动的潜在好处来克服这一困难,利用了假设伙伴(宣传代理商来探索联合行动空间的伙伴)。从直觉上讲,垫脚石的奖励为代理商效仿创造了一个梯度,以便在紧密耦合的领域中快速有效地学习。该奖项反映了NSF的法定任务,并认为值得通过基金会的智力优点和更广泛的影响审查标准通过评估来获得支持。

项目成果

期刊论文数量(16)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
Bootstrapped fitness critics with bidirectional temporal difference
具有双向时间差异的自举健身批评家
Entropy-based local fitnesses for evolutionary multiagent systems
进化多智能体系统的基于熵的局部适应度
Diversifying behaviors for learning in asymmetric multiagent systems
非对称多智能体系统中学习行为的多样化
Dynamic Skill Selection for Learning Joint Actions (extended abstract)
用于学习联合动作的动态技能选择(扩展摘要)
Dirichlet-Multinomial Counterfactual Rewards for Heterogeneous Multiagent Systems
{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ patent.updateTime }}

Kagan Tumer其他文献

Behavior Exploration and Team Balancing for Heterogeneous Multiagent Coordination
异构多智能体协调的行为探索和团队平衡
Coevolution of heterogeneous multi-robot teams
异构多机器人团队的协同进化
A mutual information based ensemble method to estimate Bayes error
一种基于互信息的贝叶斯误差估计集成方法
  • DOI:
  • 发表时间:
    1998
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Kagan Tumer;K. Bollacker;Joydeep Ghosh
  • 通讯作者:
    Joydeep Ghosh
Policy transfer in mobile robots using neuro-evolutionary navigation
使用神经进化导航的移动机器人的策略转移
  • DOI:
    10.1145/2330784.2330958
  • 发表时间:
    2012
  • 期刊:
  • 影响因子:
    2.6
  • 作者:
    Matt Knudson;Kagan Tumer
  • 通讯作者:
    Kagan Tumer
Collective Intelligence and Braess' Paradox
集体智慧与布雷斯悖论
  • DOI:
  • 发表时间:
    2000
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Kagan Tumer;D. Wolpert
  • 通讯作者:
    D. Wolpert

Kagan Tumer的其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

{{ truncateString('Kagan Tumer', 18)}}的其他基金

Doctoral Mentoring Consortium at the Thirteenth International Conference on Autonomous Agents and Multi-Agent Systems
博士生导师联盟出席第十三届自主代理和多代理系统国际会议
  • 批准号:
    1414600
  • 财政年份:
    2014
  • 资助金额:
    $ 40万
  • 项目类别:
    Standard Grant
CPS: Small: Collaborative Research: Distributed Coordination of Agents For Air Traffic Flow Management
CPS:小型:协作研究:空中交通流量管理代理的分布式协调
  • 批准号:
    0931591
  • 财政年份:
    2009
  • 资助金额:
    $ 40万
  • 项目类别:
    Standard Grant
SGER: Foundations of Multiagent Control in Complex Environments
SGER:复杂环境中多智能体控制的基础
  • 批准号:
    0910358
  • 财政年份:
    2009
  • 资助金额:
    $ 40万
  • 项目类别:
    Standard Grant

相似国自然基金

基于模块间协调关系探讨“风药”麻黄桂枝在小续命汤改善脑梗死血脑屏障功能损伤的配伍机制
  • 批准号:
    82374185
  • 批准年份:
    2023
  • 资助金额:
    49.00 万元
  • 项目类别:
    面上项目
水稻小RNA通过AGO2协调稻瘟病抗性和水稻产量的机制研究
  • 批准号:
    32372556
  • 批准年份:
    2023
  • 资助金额:
    50 万元
  • 项目类别:
    面上项目
基于复杂情境小微物流企业联合运输收益分享合作策略的研究
  • 批准号:
    71761022
  • 批准年份:
    2017
  • 资助金额:
    28.0 万元
  • 项目类别:
    地区科学基金项目
API经济下面向小微创业社群成长环节的利益共享协调信息侧机制研究
  • 批准号:
    61662021
  • 批准年份:
    2016
  • 资助金额:
    34.0 万元
  • 项目类别:
    地区科学基金项目
异构云小蜂窝网络中基于协作预编码的干扰协调技术研究
  • 批准号:
    61661005
  • 批准年份:
    2016
  • 资助金额:
    30.0 万元
  • 项目类别:
    地区科学基金项目

相似海外基金

Single-cell dynamics of E2F and APC/CCdh1 coordination that regulate the proliferation-quiescence decision
E2F 和 APC/CCdh1 协调的单细胞动力学调节增殖-静止决策
  • 批准号:
    10676530
  • 财政年份:
    2023
  • 资助金额:
    $ 40万
  • 项目类别:
Role of TREX1 in age-related hereditary leukoencephalopathy
TREX1 在年龄相关遗传性白质脑病中的作用
  • 批准号:
    10803373
  • 财政年份:
    2023
  • 资助金额:
    $ 40万
  • 项目类别:
Implementing and Scaling the STEADI Fall Prevention Algorithm Using a Conversational Relational Agent for Community-Dwelling Older Adults with and without Mild Cognitive Impairment (MCI).
使用对话关系代理为社区居住的患有或不患有轻度认知障碍 (MCI) 的老年人实施和扩展 STEADI 跌倒预防算法。
  • 批准号:
    10822816
  • 财政年份:
    2023
  • 资助金额:
    $ 40万
  • 项目类别:
Evaluation of a mobile app-based video Directly Observed Therapy (video DOT) intervention for medication adherence in pediatric heart transplant patients
基于移动应用程序的视频直接观察治疗(视频 DOT)干预对儿童心脏移植患者药物依从性的评估
  • 批准号:
    10603790
  • 财政年份:
    2023
  • 资助金额:
    $ 40万
  • 项目类别:
CAS: Reaction and Deactivation Implications of Pore structure, Nodal Identity, and Coordination Environment on Small-molecule Oxidations by Metal-organic Frameworks
CAS:孔结构、节点特性和配位环境对金属有机框架小分子氧化的反应和失活影响
  • 批准号:
    2246949
  • 财政年份:
    2023
  • 资助金额:
    $ 40万
  • 项目类别:
    Standard Grant
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了