Analysis of the latent preference mechanism that produces diverse behaviors
产生多样化行为的潜在偏好机制分析
基本信息
- 批准号:22KJ0480
- 负责人:
- 金额:$ 1.09万
- 依托单位:
- 依托单位国家:日本
- 项目类别:Grant-in-Aid for JSPS Fellows
- 财政年份:2023
- 资助国家:日本
- 起止时间:2023-03-08 至 2024-03-31
- 项目状态:已结题
- 来源:
- 关键词:
项目摘要
ベースラインの不要な分類型逆強化学習と,多目的逆強化学習についての研究を実施した.分類型逆強化学習については,手本となるエキスパートデータのみから学習するために,エキスパートは常に報酬の高い方向へ進行し続ける,という「報酬追跡原理」と呼ばれる報酬モデルを考案し,このモデルをもとに学習する手法「報酬追跡学習法」を提案した.この手法を後述する多目的深層逆強化学習において逆強化学習手法として利用し,論文内において発表した.多目的逆強化学習については,2022年度に大きく研究が進展した.2021年にまず発表した,非負値行列因子分解(NMF)によって多目的逆強化学習を解くことが可能な手法をもとに,2022年に勾配降下法を導入することで非負の制約が不要となった手法(報酬行列分解)を提案した.申請者は,この発表と同時並行で,行列分解をニューラルネットワークの構造として構築し,従来の深層逆強化学習手法の中に組み込むことによって学習する手法を検討・実験しており,その成果を「多目的深層逆強化学習」として続けて発表した.多目的深層逆強化学習は世界初の試みであり,学習が成功することを示すことができたことは重要な成果と言える.そして,多目的深層逆強化学習の研究を更に発展させ,重みと報酬の総和を計算する(線形スカラー化と呼ばれる)という仮定をなくすために,最大値を取るチェビシェフスカラー化(非線形スカラー化の一種)を含んだ重み付けスカラー化の一般化を定義し,このスカラー化操作をニューラルネットワークによって学習する「ニューラルスカラー化」を開発した.この研究成果は査読を経て,英文ジャーナルに採択された.また,常に最適行動を取り続けるエキスパートは非現実的であるため,時に最適でない行動を取るエキスパート(準最適なエキスパート)のデータにも対応するべく,新たな視点からの手法を開発し,現在実験を進めている.
我们对不需要基线的分类型逆强化学习和多目标逆强化学习进行了研究。关于分类逆强化学习,为了仅从充当模型的专家数据中进行学习,我们设计了一种称为“奖励跟踪原理”的奖励模型,其中专家总是朝着更高奖励的方向移动,并开发了该模型。我们提出了一种基于“奖励跟踪学习方法”的学习方法。该方法被用作多目标深度逆强化学习中的逆强化学习方法,后面会介绍,并在论文中公布。多目标逆强化学习的研究在2022年取得了重大进展。基于 2021 年首次公布的可以使用非负矩阵分解(NMF)解决多目标逆强化学习的方法,2022 年引入梯度下降将消除对非负约束的需要。方法(奖励矩阵分解)。在本次演讲的同时,申请人一直在研究和实验一种将矩阵分解构造为神经网络结构并将其纳入传统深度逆强化学习方法的学习方法,其结果将在“它是随后宣布为“多目标深度逆强化学习”。这是世界上首次尝试多目标深度逆强化学习,能够证明学习是成功的,可以认为是一项重要成就。为了进一步开展多目标深度逆强化学习的研究,消除计算权重和奖励之和的假设(称为线性标量化),我们决定使用取最大值的切比雪夫标量化(非线性标量化的一种)我们定义了加权标量化的概括,其中包括 ,并开发了“神经标量化”,它使用神经网络来学习这种标量化操作。该研究成果经同行评审后被英文期刊接受。此外,由于拥有一个总是采取最优行动的专家是不现实的,因此我们从新的角度开发了一种方法,并且目前正在进行实验,以处理有时采取次优行动的专家(次优专家)的数据。 。
项目成果
期刊论文数量(0)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
数据更新时间:{{ journalArticles.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ monograph.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ sciAawards.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ conferencePapers.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ patent.updateTime }}
岸川 大航其他文献
Reward Matrix Decomposition for Multi-Objective Inverse Reinforcement Learning
多目标逆强化学习的奖励矩阵分解
- DOI:
10.11517/pjsai.jsai2022.0_4e1gs205 - 发表时间:
2022 - 期刊:
- 影响因子:0
- 作者:
岸川 大航;荒井 幸代 - 通讯作者:
荒井 幸代
Reward Matrix Decomposition for Multi-Objective Inverse Reinforcement Learning
多目标逆强化学习的奖励矩阵分解
- DOI:
10.11517/pjsai.jsai2022.0_4e1gs205 - 发表时间:
2022 - 期刊:
- 影响因子:0
- 作者:
岸川 大航;荒井 幸代 - 通讯作者:
荒井 幸代
岸川 大航的其他文献
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}