Collaborative Research: RI: Medium: Bootstrapping natural feedback for reinforcement learning

合作研究:RI:中:引导强化学习的自然反馈

基本信息

  • 批准号:
    2212310
  • 负责人:
  • 金额:
    $ 120万
  • 依托单位:
  • 依托单位国家:
    美国
  • 项目类别:
    Standard Grant
  • 财政年份:
    2022
  • 资助国家:
    美国
  • 起止时间:
    2022-09-01 至 2025-08-31
  • 项目状态:
    未结题

项目摘要

Many modern applications of artificial intelligence---from industrial automation to content recommendation---depend on machine learning algorithms that train automated agents to interact with their environments. But the two main approaches to interactive learning, reinforcement learning and imitation, require so much supervision or training time that it is prohibitively expensive to apply them to most real-world problems. Human learning does not suffer from this shortcoming, in large part because humans learn not from rewards or demonstrations, but instead from extended interaction with skilled teachers who use signals like gesture and language. This project will lay a foundation for research on interactive learning with rich feedback, from the perspective of individual agents, human--agent teams, and multi-agent populations. It will yield new capabilities for interactive training of automated agents, expanding both the effectiveness and accessibility of such techniques. Support for natural, interactive feedback will also improve the customizability of such systems, making on-the-fly adaptation or retraining accessible to users without significant computing power, data annotation resources or even programming ability.The project is organized into three broad research objectives. First, it will develop a formal framework for grounding feedback, using simple supervisory signals (provided during or after execution) to bootstrap learned interpretation of more complex feedback types. Second, it will develop algorithms for learning to solicit feedback. These algorithms will turn the one-way process of reinforcement learning into a two-way interaction, enabling agents to proactively query supervisors for information about the compositional and causal structure of the environment. Third, it will develop new mechanisms and techniques for providing feedback, via software tools that assist human supervisors in selecting or generating maximally informative feedback signals. Research under each of these objectives will be carried out in simulated environments, benchmarked using complex tasks spanning navigation, robot manipulation, and furniture assembly, and evaluated in terms of its benefits to sample efficiency, end-to-end development time, and usability.This award reflects NSF's statutory mission and has been deemed worthy of support through evaluation using the Foundation's intellectual merit and broader impacts review criteria.
人工智能的许多现代应用 - 从工业自动化到内容建议---取决于训练自动化代理以与环境互动的机器学习算法。但是,互动学习,强化学习和模仿的两种主要方法需要大量的监督或培训时间,以至于将它们应用于大多数现实世界中的问题非常昂贵。人类的学习不会遭受这种缺点的困扰,这在很大程度上是因为人类不是从奖励或示范中学习,而是与使用手势和语言之类的信号的熟练老师进行扩展互动。该项目将从各个代理人,人类 - 代理团队和多机构人口的角度来看,为互动学习的研究奠定基础。 它将产生新的功能,用于对自动化代理进行互动培训,从而扩大此类技术的有效性和可访问性。支持自然的交互式反馈还将改善此类系统的可定制性,在没有强大的计算能力,数据注释资源甚至编程能力的情况下,可以在线适应或重新训练。该项目被组织为三个广泛的研究目标。首先,它将使用简单的监督信号(在执行期间或之后提供)来开发一个正式的框架来接地反馈,以学习对更复杂的反馈类型的解释。其次,它将开发学习征集反馈的算法。这些算法将把增强学习的单向过程转变为双向相互作用,使代理能够主动查询主管,以获取有关环境组成和因果关系结构的信息。第三,它将通过软件工具开发新的机制和技术来提供反馈,以帮助人类主管选择或生成最大信息的反馈信号。这些目标下的研究将在模拟环境中进行,使用跨越导航,机器人操纵和家具组装的复杂任务进行基准测试,并根据其对样品效率的好处,端到端的开发时间和可用性进行评估。该奖项反映了NSF的法定任务,并通过评估了基金会的范围,并通过基金会的范围进行了评估和宽广的效果。

项目成果

期刊论文数量(1)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
Guiding Pretraining in Reinforcement Learning with Large Language Models
  • DOI:
    10.48550/arxiv.2302.06692
  • 发表时间:
    2023-02
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Yuqing Du;Olivia Watkins;Zihan Wang;Cédric Colas;Trevor Darrell;P. Abbeel;Abhishek Gupta;Jacob Andreas
  • 通讯作者:
    Yuqing Du;Olivia Watkins;Zihan Wang;Cédric Colas;Trevor Darrell;P. Abbeel;Abhishek Gupta;Jacob Andreas
{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ patent.updateTime }}

Jacob Andreas其他文献

Good-Enough Compositional Data Augmentation
  • DOI:
    10.18653/v1/2020.acl-main.676
  • 发表时间:
    2019-04
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Jacob Andreas
  • 通讯作者:
    Jacob Andreas
Guided K-best Selection for Semantic Parsing Annotation
语义解析标注的引导 K-best 选择
  • DOI:
    10.18653/v1/2022.acl-demo.11
  • 发表时间:
    2022
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Anton Belyy;Huang Chieh;Jacob Andreas;Emmanouil Antonios Platanios;Sam Thomson;Richard Shin;Subhro Roy;Aleksandr Nisnevich;Charles C. Chen;Benjamin Van Durme
  • 通讯作者:
    Benjamin Van Durme
Loose LIPS Sink Ships: Asking Questions in Battleship with Language-Informed Program Sampling
松散的嘴唇沉船:通过语言通知的程序采样在战舰中提问
  • DOI:
  • 发表时间:
    2024
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Gabriel Grand;Valerio Pepe;Jacob Andreas;Joshua B. Tenenbaum
  • 通讯作者:
    Joshua B. Tenenbaum
From Word Models to World Models: Translating from Natural Language to the Probabilistic Language of Thought
从文字模型到世界模型:从自然语言到概率性思维语言的翻译
  • DOI:
  • 发表时间:
    2023
  • 期刊:
  • 影响因子:
    0
  • 作者:
    L. Wong;Gabriel Grand;Alexander K. Lew;Noah D. Goodman;Vikash K. Mansinghka;Jacob Andreas;J. Tenenbaum
  • 通讯作者:
    J. Tenenbaum
Learning from Language

Jacob Andreas的其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

{{ truncateString('Jacob Andreas', 18)}}的其他基金

CAREER: Learning Structured Models with Natural Language Supervision
职业:利用自然语言监督学习结构化模型
  • 批准号:
    2238240
  • 财政年份:
    2023
  • 资助金额:
    $ 120万
  • 项目类别:
    Continuing Grant

相似国自然基金

跨膜蛋白LRP5胞外域调控膜受体TβRI促钛表面BMSCs归巢、分化的研究
  • 批准号:
    82301120
  • 批准年份:
    2023
  • 资助金额:
    30 万元
  • 项目类别:
    青年科学基金项目
Dectin-2通过促进FcεRI聚集和肥大细胞活化加剧哮喘发作的机制研究
  • 批准号:
    82300022
  • 批准年份:
    2023
  • 资助金额:
    30 万元
  • 项目类别:
    青年科学基金项目
TβRI的UFM化修饰调控TGF-β信号通路和乳腺癌转移的作用及机制研究
  • 批准号:
    32200568
  • 批准年份:
    2022
  • 资助金额:
    30.00 万元
  • 项目类别:
    青年科学基金项目
藏药甘肃蚤缀β-咔啉生物碱类TβRI抑制剂的发现及其抗肺纤维化作用机制研究
  • 批准号:
  • 批准年份:
    2022
  • 资助金额:
    30 万元
  • 项目类别:
    青年科学基金项目
藏药甘肃蚤缀β-咔啉生物碱类TβRI抑制剂的发现及其抗肺纤维化作用机制研究
  • 批准号:
    82204762
  • 批准年份:
    2022
  • 资助金额:
    30.00 万元
  • 项目类别:
    青年科学基金项目

相似海外基金

Collaborative Research: RI: Medium: Principles for Optimization, Generalization, and Transferability via Deep Neural Collapse
合作研究:RI:中:通过深度神经崩溃实现优化、泛化和可迁移性的原理
  • 批准号:
    2312841
  • 财政年份:
    2023
  • 资助金额:
    $ 120万
  • 项目类别:
    Standard Grant
Collaborative Research: RI: Medium: Principles for Optimization, Generalization, and Transferability via Deep Neural Collapse
合作研究:RI:中:通过深度神经崩溃实现优化、泛化和可迁移性的原理
  • 批准号:
    2312842
  • 财政年份:
    2023
  • 资助金额:
    $ 120万
  • 项目类别:
    Standard Grant
Collaborative Research: RI: Small: Foundations of Few-Round Active Learning
协作研究:RI:小型:少轮主动学习的基础
  • 批准号:
    2313131
  • 财政年份:
    2023
  • 资助金额:
    $ 120万
  • 项目类别:
    Standard Grant
Collaborative Research: RI: Medium: Lie group representation learning for vision
协作研究:RI:中:视觉的李群表示学习
  • 批准号:
    2313151
  • 财政年份:
    2023
  • 资助金额:
    $ 120万
  • 项目类别:
    Continuing Grant
Collaborative Research: RI: Small: Motion Fields Understanding for Enhanced Long-Range Imaging
合作研究:RI:小型:增强远程成像的运动场理解
  • 批准号:
    2232298
  • 财政年份:
    2023
  • 资助金额:
    $ 120万
  • 项目类别:
    Standard Grant
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了