Development of inverse reinforcement learning focusing on the multiobjective nature of humans and autonomous systems: towards zero risk and comfort maximization.
逆向强化学习的发展侧重于人类和自主系统的多目标性质:实现零风险和舒适度最大化。
基本信息
- 批准号:22H03665
- 负责人:
- 金额:$ 8.32万
- 依托单位:
- 依托单位国家:日本
- 项目类别:Grant-in-Aid for Scientific Research (B)
- 财政年份:2022
- 资助国家:日本
- 起止时间:2022-04-01 至 2025-03-31
- 项目状态:未结题
- 来源:
- 关键词:
项目摘要
本課題は,近い将来,人間の行動範囲に共存する自律機械のうち,ドローン,自動車,鉄道の自律制御るに対す機械学習の導入への信頼(安全性と安心)を担保することを目的としている.今年度は,上記目的に沿った適用可能な機械学習のアルゴリズムの検討と改善,および,学習によって獲得した制御則に基づいた運行(飛行,走行を総じて運行と呼ぶ)軌跡から,制御則の目的関数を推定する方法を検討し,簡易なベンチマークを用いて,方法の妥当性を検証した.ドローンは,既に実用が進む海外の状況から,複数台の飛行状況における協調と競合を想定して,衝突回避しながら,効率よく目的タスクの遂行を実施する深層強化学習アルゴリズムを提案し,計算機シミュレーション実験において良好な結果を得た.鉄道の運行については,定時運行の大前提の下で,鉄道運行における喫緊の課題である省エネルギー運転制御を実現する方法を,二段階最適化問題として定式化した方法のプロトタイプを作成し,従来の方法よりも有意に優れた性能を示すことを確認した.以上は,機械学習によって得られた制御方法によって,タスクの最適性の向上可能性を示唆する成果であるが,併せて,これらの動きに対する,人(設計者や,共存する人々)の反応を検証することも本課題の重要なエッセンスである.これについては,まず,設計者の理解を促す方法として,学習後の制御入力と出力の対応関係を統計的に分析し,入力次元に関して「アテンション」(機械が着目した重要な“特徴”)を抽出することによって,出力との因果関係を導出する方法を検討し,理解の妥当性を評価した.これによって,学習結果のフィルタ効果を確認しており,副次的な効果として,2023年度の研究計画に盛り込む予定である.理解や説明を促すための方法が,学習による制御の冗長な部分や,これまで不可避であった,確率的な挙動解消に対しての有効性が期待できる.
本期的目的是确保在不久的将来将在人类活动范围内共存的自主机器中引入用于无人机、汽车和铁路自主控制的机器学习的信任(安全和安保)。有。本财年,我们将按照上述目标,研究和完善适用的机器学习算法,并根据通过学习获得的控制规律,检验基于运行轨迹(飞行和跑步统称为运行)的控制规律的目标。我们研究了一种估计函数的方法,并使用简单的基准验证了该方法的有效性。考虑到无人机在国外已经投入实际使用的情况,我们提出了一种深度强化学习算法,在避免碰撞、假设多种飞行情况下的合作和竞争的情况下高效执行目标任务,并进行了计算机模拟,获得了良好的结果。在实验中。针对铁路运营,我们创建了一个原型方法,将其制定为两步优化问题,以在准点运营的大前提下实现节能运营控制,这是铁路运营中迫切需要解决的问题。所提出的方法显示出比所提出的方法明显更好的性能。上述结果表明,通过机器学习获得的控制方法可以提高任务的最优性,但考虑人(设计师和共存的人)对这些动作的反应也很重要,验证也是该项目的重要本质。首先,作为鼓励设计者理解的一种方式,我们在学习后统计分析控制输入和输出之间的对应关系,并计算关于输入维度的“注意力”(机器关注的重要“特征”)。通过提取输出来导出与输出的因果关系,并评估理解的有效性。通过此,我们确认了学习成果的过滤效果,并计划将其作为次要效果纳入2023年的研究计划中。鼓励理解和解释的方法有望有效地通过学习消除多余的控制部分,并解决迄今为止不可避免的随机行为。
项目成果
期刊论文数量(4)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
深層強化学習を用いた自動運転の制御限界の検出
使用深度强化学习检测自动驾驶的控制极限
- DOI:
- 发表时间:2022
- 期刊:
- 影响因子:0
- 作者:岸川 大航;荒井 幸代;今村麟太郎,荒井幸代
- 通讯作者:今村麟太郎,荒井幸代
Multi-objective deep inverse reinforcement learning for weight estimation of objectives
用于目标权重估计的多目标深度逆强化学习
- DOI:10.1007/s10015-022-00773-8
- 发表时间:2022
- 期刊:
- 影响因子:0.9
- 作者:Takayama Naoya;Arai Sachiyo
- 通讯作者:Arai Sachiyo
Reward Matrix Decomposition for Multi-Objective Inverse Reinforcement Learning
多目标逆强化学习的奖励矩阵分解
- DOI:10.11517/pjsai.jsai2022.0_4e1gs205
- 发表时间:2022
- 期刊:
- 影响因子:0
- 作者:岸川 大航;荒井 幸代
- 通讯作者:荒井 幸代
強化学習とモデル予測制御を用いた UAV の自律的バッテリー管理による飛行経路最適化
使用强化学习和模型预测控制进行无人机自主电池管理的飞行路径优化
- DOI:
- 发表时间:2022
- 期刊:
- 影响因子:0
- 作者:岸川 大航;荒井 幸代;今村麟太郎,荒井幸代;堀江直人,荒井幸代
- 通讯作者:堀江直人,荒井幸代
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
数据更新时间:{{ journalArticles.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ monograph.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ sciAawards.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ conferencePapers.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ patent.updateTime }}
荒井 幸代其他文献
自動運転技術入門
自动驾驶技术简介
- DOI:
- 发表时间:
2021 - 期刊:
- 影响因子:0
- 作者:
日本ロボット学会;香月 理絵;荒井 幸代;大前 学;大日方 五郎;川崎 敦史;橘川 雄樹;小林 祐一;菅沼 直樹;田崎 豪;谷沢 昭行;新田 修平;野呂瀬 琴;馬場 厚志;藤吉 弘亘;目黒 淳一;森出 茂樹;谷口 敦司;山下 倫央 - 通讯作者:
山下 倫央
粘土層の過剰間隙水圧が表層の液状化に及ぼす影響,第42回地盤工学研究発表会
粘土层超孔隙水压力对表层液化的影响,第42届岩土工程研究会议
- DOI:
- 发表时间:
2007 - 期刊:
- 影响因子:0
- 作者:
Sekiguchi;T.;Toru SEKIGUCHI;今宿誠己;Masaki IMAJUKU;永田葉子;中井正一;土佐内優介;太田尚利;べ・ぜぎゅ;藤川智;Yoko NAGATA;Shoichi NAKAI;Yusuke TOSAUCHI;Takatoshi OHTA;Jaegyu BAE;Satoshi FUJIKAWA;永田 葉子;中井 正一;土佐内 優介;永田 葉子;関口 徹;丸山 喜久;丸山 喜久;福島 康宏;荒井 幸代;高澤 知也;荒井 幸代;藤川 智 - 通讯作者:
藤川 智
先行車情報の共有が自然渋滞に与える影響の解析:Nagel-Schreckenberg Modelの一般化
共享前车信息对自然拥堵的影响分析:Nagel-Schreckenberg 模型的推广
- DOI:
- 发表时间:
2016 - 期刊:
- 影响因子:0
- 作者:
石川 翔太;荒井 幸代 - 通讯作者:
荒井 幸代
荒井 幸代的其他文献
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
{{ truncateString('荒井 幸代', 18)}}的其他基金
人と自律システム系の多目的性に着目した逆強化学習の展開:危険ゼロと快適最大化
逆向强化学习的发展重点关注人类和自主系统的多用途性质:零危险和最大舒适度
- 批准号:
23K24921 - 财政年份:2024
- 资助金额:
$ 8.32万 - 项目类别:
Grant-in-Aid for Scientific Research (B)
相似海外基金
リスクの不確実性に対処する自律分散型マルチエージェント強化学習の研究開発
应对风险不确定性的自主分布式多智能体强化学习研发
- 批准号:
24K20873 - 财政年份:2024
- 资助金额:
$ 8.32万 - 项目类别:
Grant-in-Aid for Early-Career Scientists
マルチエージェント強化学習による人間と合意形成する自動交渉エージェントの開発
开发使用多智能体强化学习与人类达成共识的自动谈判智能体
- 批准号:
23K11230 - 财政年份:2023
- 资助金额:
$ 8.32万 - 项目类别:
Grant-in-Aid for Scientific Research (C)
Emergence of social relationship in co-learning system: exploitation in prisoner's dilemma game
共同学习系统中社会关系的出现:囚徒困境博弈中的剥削
- 批准号:
22KJ1414 - 财政年份:2023
- 资助金额:
$ 8.32万 - 项目类别:
Grant-in-Aid for JSPS Fellows
マルチエージェント逆強化学習による動物の集団形成を制御する意思決定機構の解明
利用多智能体逆强化学习阐明控制动物群体形成的决策机制
- 批准号:
22K15181 - 财政年份:2022
- 资助金额:
$ 8.32万 - 项目类别:
Grant-in-Aid for Early-Career Scientists
思春期から成人期までの発達過程での役割間葛藤対処法の創発・変容プロセスの動態解明
阐明青春期至成年发展过程中角色间冲突应对方式产生与转变的动态
- 批准号:
21K12054 - 财政年份:2021
- 资助金额:
$ 8.32万 - 项目类别:
Grant-in-Aid for Scientific Research (C)