喵ID:871Lcb免责声明

Meta-Reward-Net: Implicitly Differentiable Reward Learning for Preference-based Reinforcement Learning

元奖励网络:基于偏好的强化学习的隐式可微奖励学习

基本信息

DOI:
--
发表时间:
2022
期刊:
Neural Information Processing Systems
影响因子:
--
通讯作者:
Yaodong Yang
中科院分区:
文献类型:
--
作者: Runze Liu;Fengshuo Bai;Yali Du;Yaodong Yang研究方向: -- MeSH主题词: --
关键词: --
来源链接:pubmed详情页地址

文献摘要

Setting up a well-designed reward function has been challenging for many reinforcement learning applications. Preference-based reinforcement learning (PbRL) provides a new framework that avoids reward engineering by leveraging human preferences (i.e., preferring apples over oranges) as the reward signal. Therefore, improving the efficacy of data usage for preference data becomes critical. In this work, we propose Meta-Reward-Net (MRN), a data-efficient PbRL framework that incorporates bi-level optimization for both reward and policy learning. The key idea of MRN is to adopt the performance of the Q-function as the learning target. Based on this, MRN learns the Q-function and the policy in the inner level while updating the reward function adaptively according to the performance of the Q-function on the preference data in the outer level. Our experiments on robotic simulated manipulation tasks and locomotion tasks demonstrate that MRN outperforms prior methods in the case of few preference labels and significantly improves data efficiency, achieving state-of-the-art in preference-based RL. Ablation studies further demonstrate that MRN learns a more accurate Q-function compared to prior work and shows obvious advantages when only a small amount of human feedback is available. The source code and videos of this project are released at https://sites.google.com/view/meta-reward-net 1 .
对于许多强化学习应用来说,设置一个精心设计的奖励函数一直具有挑战性。基于偏好的强化学习(PbRL)提供了一个新的框架,它通过利用人类偏好(例如,更喜欢苹果而不是橙子)作为奖励信号来避免奖励工程。因此,提高偏好数据的使用效率变得至关重要。在这项工作中,我们提出了元奖励网络(MRN),这是一个数据高效的PbRL框架,它将双层优化纳入奖励和策略学习中。MRN的关键思想是采用Q函数的性能作为学习目标。基于此,MRN在内部层面学习Q函数和策略,同时根据Q函数在外部层面的偏好数据上的性能自适应地更新奖励函数。我们在机器人模拟操作任务和运动任务上的实验表明,在偏好标签较少的情况下,MRN优于先前的方法,并显著提高了数据效率,在基于偏好的强化学习中达到了最先进水平。消融研究进一步表明,与先前的工作相比,MRN学习到了更准确的Q函数,并且在只有少量人类反馈可用时显示出明显的优势。该项目的源代码和视频发布在https://sites.google.com/view/meta-reward-net1。
参考文献(5)
被引文献(15)
B-Pref: Benchmarking Preference-Based Reinforcement Learning
DOI:
发表时间:
2021-11
期刊:
ArXiv
影响因子:
0
作者:
Kimin Lee;Laura M. Smith;A. Dragan;P. Abbeel
通讯作者:
Kimin Lee;Laura M. Smith;A. Dragan;P. Abbeel
Learning Reward Functions by Integrating Human Demonstrations and Preferences
DOI:
10.15607/rss.2019.xv.023
发表时间:
2019-06
期刊:
ArXiv
影响因子:
0
作者:
Malayandi Palan;Nicholas C. Landolfi;Gleb Shevchuk;Dorsa Sadigh
通讯作者:
Malayandi Palan;Nicholas C. Landolfi;Gleb Shevchuk;Dorsa Sadigh
Confidence-Aware Imitation Learning from Demonstrations with Varying Optimality
DOI:
发表时间:
2021-10
期刊:
ArXiv
影响因子:
0
作者:
Songyuan Zhang;Zhangjie Cao;Dorsa Sadigh;Yanan Sui
通讯作者:
Songyuan Zhang;Zhangjie Cao;Dorsa Sadigh;Yanan Sui
Active Preference-Based Gaussian Process Regression for Reward Learning
DOI:
10.1177/02783649231208729
发表时间:
2020-05
期刊:
The International Journal of Robotics Research
影响因子:
0
作者:
Erdem Biyik;Nicolas Huynh;Mykel J. Kochenderfer;Dorsa Sadigh
通讯作者:
Erdem Biyik;Nicolas Huynh;Mykel J. Kochenderfer;Dorsa Sadigh
PEBBLE: Feedback-Efficient Interactive Reinforcement Learning via Relabeling Experience and Unsupervised Pre-training
DOI:
发表时间:
2021-06
期刊:
影响因子:
0
作者:
Kimin Lee;Laura M. Smith;P. Abbeel
通讯作者:
Kimin Lee;Laura M. Smith;P. Abbeel

数据更新时间:{{ references.updateTime }}

Yaodong Yang
通讯地址:
--
所属机构:
--
电子邮件地址:
--
免责声明免责声明
1、猫眼课题宝专注于为科研工作者提供省时、高效的文献资源检索和预览服务;
2、网站中的文献信息均来自公开、合规、透明的互联网文献查询网站,可以通过页面中的“来源链接”跳转数据网站。
3、在猫眼课题宝点击“求助全文”按钮,发布文献应助需求时求助者需要支付50喵币作为应助成功后的答谢给应助者,发送到用助者账户中。若文献求助失败支付的50喵币将退还至求助者账户中。所支付的喵币仅作为答谢,而不是作为文献的“购买”费用,平台也不从中收取任何费用,
4、特别提醒用户通过求助获得的文献原文仅用户个人学习使用,不得用于商业用途,否则一切风险由用户本人承担;
5、本平台尊重知识产权,如果权利所有者认为平台内容侵犯了其合法权益,可以通过本平台提供的版权投诉渠道提出投诉。一经核实,我们将立即采取措施删除/下架/断链等措施。
我已知晓