喵ID:vMUPti免责声明

When Your AIs Deceive You: Challenges with Partial Observability of Human Evaluators in Reward Learning

当你的人工智能欺骗你时:奖励学习中人类评估者的部分可观察性挑战

基本信息

DOI:
10.48550/arxiv.2402.17747
发表时间:
2024
期刊:
ArXiv
影响因子:
--
通讯作者:
Scott Emmons
中科院分区:
文献类型:
--
作者: Leon Lang;Davis Foote;Stuart J. Russell;Anca Dragan;Erik Jenner;Scott Emmons研究方向: -- MeSH主题词: --
关键词: --
来源链接:pubmed详情页地址

文献摘要

Past analyses of reinforcement learning from human feedback (RLHF) assume that the human fully observes the environment. What happens when human feedback is based only on partial observations? We formally define two failure cases: deception and overjustification. Modeling the human as Boltzmann-rational w.r.t. a belief over trajectories, we prove conditions under which RLHF is guaranteed to result in policies that deceptively inflate their performance, over-justify their behavior to make an impression, or both. To help address these issues, we mathematically characterize how partial observability of the environment translates into (lack of) ambiguity in the learned return function. In some cases, accounting for partial observability makes it theoretically possible to recover the return function and thus the optimal policy, while in other cases, there is irreducible ambiguity. We caution against blindly applying RLHF in partially observable settings and propose research directions to help tackle these challenges.
过去对人类反馈强化学习(RLHF)的分析假定人类完全观察了环境。如果人的反馈仅基于部分观察,会发生什么情况呢?我们正式定义了两种失败情况:欺骗和过度调整。我们将人类建模为波尔兹曼理性的轨迹信念,并证明了在哪些条件下 RLHF 可以保证导致政策欺骗性地夸大其性能,或过度证明其行为以给人留下印象,或两者兼而有之。为了帮助解决这些问题,我们从数学角度描述了环境的部分可观测性如何转化为所学回报函数的(缺乏)模糊性。在某些情况下,考虑到部分可观测性,理论上就有可能恢复回报函数,从而恢复最优策略,而在其他情况下,则存在不可还原的模糊性。我们告诫大家不要在部分可观测的环境中盲目应用 RLHF,并提出了有助于应对这些挑战的研究方向。
参考文献(1)
被引文献(2)

数据更新时间:{{ references.updateTime }}

Scott Emmons
通讯地址:
--
所属机构:
--
电子邮件地址:
--
免责声明免责声明
1、猫眼课题宝专注于为科研工作者提供省时、高效的文献资源检索和预览服务;
2、网站中的文献信息均来自公开、合规、透明的互联网文献查询网站,可以通过页面中的“来源链接”跳转数据网站。
3、在猫眼课题宝点击“求助全文”按钮,发布文献应助需求时求助者需要支付50喵币作为应助成功后的答谢给应助者,发送到用助者账户中。若文献求助失败支付的50喵币将退还至求助者账户中。所支付的喵币仅作为答谢,而不是作为文献的“购买”费用,平台也不从中收取任何费用,
4、特别提醒用户通过求助获得的文献原文仅用户个人学习使用,不得用于商业用途,否则一切风险由用户本人承担;
5、本平台尊重知识产权,如果权利所有者认为平台内容侵犯了其合法权益,可以通过本平台提供的版权投诉渠道提出投诉。一经核实,我们将立即采取措施删除/下架/断链等措施。
我已知晓