Development of inverse reinforcement learning focusing on the multiobjective nature of humans and autonomous systems: towards zero risk and comfort maximization.
逆向强化学习的发展侧重于人类和自主系统的多目标性质:实现零风险和舒适度最大化。
基本信息
- 批准号:22H03665
- 负责人:
- 金额:$ 8.32万
- 依托单位:
- 依托单位国家:日本
- 项目类别:Grant-in-Aid for Scientific Research (B)
- 财政年份:2022
- 资助国家:日本
- 起止时间:2022-04-01 至 2025-03-31
- 项目状态:未结题
- 来源:
- 关键词:
项目摘要
本課題は,近い将来,人間の行動範囲に共存する自律機械のうち,ドローン,自動車,鉄道の自律制御るに対す機械学習の導入への信頼(安全性と安心)を担保することを目的としている.今年度は,上記目的に沿った適用可能な機械学習のアルゴリズムの検討と改善,および,学習によって獲得した制御則に基づいた運行(飛行,走行を総じて運行と呼ぶ)軌跡から,制御則の目的関数を推定する方法を検討し,簡易なベンチマークを用いて,方法の妥当性を検証した.ドローンは,既に実用が進む海外の状況から,複数台の飛行状況における協調と競合を想定して,衝突回避しながら,効率よく目的タスクの遂行を実施する深層強化学習アルゴリズムを提案し,計算機シミュレーション実験において良好な結果を得た.鉄道の運行については,定時運行の大前提の下で,鉄道運行における喫緊の課題である省エネルギー運転制御を実現する方法を,二段階最適化問題として定式化した方法のプロトタイプを作成し,従来の方法よりも有意に優れた性能を示すことを確認した.以上は,機械学習によって得られた制御方法によって,タスクの最適性の向上可能性を示唆する成果であるが,併せて,これらの動きに対する,人(設計者や,共存する人々)の反応を検証することも本課題の重要なエッセンスである.これについては,まず,設計者の理解を促す方法として,学習後の制御入力と出力の対応関係を統計的に分析し,入力次元に関して「アテンション」(機械が着目した重要な“特徴”)を抽出することによって,出力との因果関係を導出する方法を検討し,理解の妥当性を評価した.これによって,学習結果のフィルタ効果を確認しており,副次的な効果として,2023年度の研究計画に盛り込む予定である.理解や説明を促すための方法が,学習による制御の冗長な部分や,これまで不可避であった,確率的な挙動解消に対しての有効性が期待できる.
此问题旨在确保引入机器学习以自主控制无人机,汽车和铁路的信心(安全和保障)之间,这些机器将在不久的将来在人类活动范围内共存。今年,我们根据上述目标研究并改进了适用的机器学习算法,并检查了一种基于通过学习获得的控制规则(通常将飞行和驾驶称为操作)估算轨迹的控制法律的客观功能的方法,并使用简单的基础标记验证了该方法的有效性。无人机已经在海外实际使用,并提出了一种深入的强化学习算法,该算法在避免碰撞的同时有效地执行目标任务,假设在多辆车的飞行情况下进行合作和竞争,并在计算机模拟实验中获得了良好的结果。关于铁路运营,我们创建了一种方法的原型,该方法是根据常规操作的基本前提来制定的两阶段优化问题,这是铁路操作的紧迫问题,并确认它的性能要比传统方法更好。以上结果表明,通过机器学习获得的控制方法可以改善任务的最佳性,但此任务的重要本质是检查人们(设计师和共存人)对这些运动的反应。在这方面,我们首先研究了一种通过统计分析控制输入和输出之间的对应关系,并提取“注意力”(重要的“特征”集中在输入维度上),从而导致与输出的因果关系,并评估理解有效性。这证实了学习结果的过滤效果,作为次要效应,它计划包括在2023年的研究计划中。可以期望鼓励理解和解释的方法有效地通过学习和解决迄今为止一直不可避免的概率行为来限制控制。
项目成果
期刊论文数量(4)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
深層強化学習を用いた自動運転の制御限界の検出
使用深度强化学习检测自动驾驶的控制极限
- DOI:
- 发表时间:2022
- 期刊:
- 影响因子:0
- 作者:岸川 大航;荒井 幸代;今村麟太郎,荒井幸代
- 通讯作者:今村麟太郎,荒井幸代
Reward Matrix Decomposition for Multi-Objective Inverse Reinforcement Learning
多目标逆强化学习的奖励矩阵分解
- DOI:10.11517/pjsai.jsai2022.0_4e1gs205
- 发表时间:2022
- 期刊:
- 影响因子:0
- 作者:岸川 大航;荒井 幸代
- 通讯作者:荒井 幸代
Multi-objective deep inverse reinforcement learning for weight estimation of objectives
用于目标权重估计的多目标深度逆强化学习
- DOI:10.1007/s10015-022-00773-8
- 发表时间:2022
- 期刊:
- 影响因子:0.9
- 作者:Takayama Naoya;Arai Sachiyo
- 通讯作者:Arai Sachiyo
強化学習とモデル予測制御を用いた UAV の自律的バッテリー管理による飛行経路最適化
使用强化学习和模型预测控制进行无人机自主电池管理的飞行路径优化
- DOI:
- 发表时间:2022
- 期刊:
- 影响因子:0
- 作者:岸川 大航;荒井 幸代;今村麟太郎,荒井幸代;堀江直人,荒井幸代
- 通讯作者:堀江直人,荒井幸代
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
数据更新时间:{{ journalArticles.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ monograph.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ sciAawards.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ conferencePapers.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ patent.updateTime }}
荒井 幸代其他文献
自動運転技術入門
自动驾驶技术简介
- DOI:
- 发表时间:
2021 - 期刊:
- 影响因子:0
- 作者:
日本ロボット学会;香月 理絵;荒井 幸代;大前 学;大日方 五郎;川崎 敦史;橘川 雄樹;小林 祐一;菅沼 直樹;田崎 豪;谷沢 昭行;新田 修平;野呂瀬 琴;馬場 厚志;藤吉 弘亘;目黒 淳一;森出 茂樹;谷口 敦司;山下 倫央 - 通讯作者:
山下 倫央
粘土層の過剰間隙水圧が表層の液状化に及ぼす影響,第42回地盤工学研究発表会
粘土层超孔隙水压力对表层液化的影响,第42届岩土工程研究会议
- DOI:
- 发表时间:
2007 - 期刊:
- 影响因子:0
- 作者:
Sekiguchi;T.;Toru SEKIGUCHI;今宿誠己;Masaki IMAJUKU;永田葉子;中井正一;土佐内優介;太田尚利;べ・ぜぎゅ;藤川智;Yoko NAGATA;Shoichi NAKAI;Yusuke TOSAUCHI;Takatoshi OHTA;Jaegyu BAE;Satoshi FUJIKAWA;永田 葉子;中井 正一;土佐内 優介;永田 葉子;関口 徹;丸山 喜久;丸山 喜久;福島 康宏;荒井 幸代;高澤 知也;荒井 幸代;藤川 智 - 通讯作者:
藤川 智
先行車情報の共有が自然渋滞に与える影響の解析:Nagel-Schreckenberg Modelの一般化
共享前车信息对自然拥堵的影响分析:Nagel-Schreckenberg 模型的推广
- DOI:
- 发表时间:
2016 - 期刊:
- 影响因子:0
- 作者:
石川 翔太;荒井 幸代 - 通讯作者:
荒井 幸代
荒井 幸代的其他文献
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
{{ truncateString('荒井 幸代', 18)}}的其他基金
人と自律システム系の多目的性に着目した逆強化学習の展開:危険ゼロと快適最大化
逆向强化学习的发展重点关注人类和自主系统的多用途性质:零危险和最大舒适度
- 批准号:
23K24921 - 财政年份:2024
- 资助金额:
$ 8.32万 - 项目类别:
Grant-in-Aid for Scientific Research (B)
相似国自然基金
煤矿安全人机混合群智感知任务的约束动态多目标Q-learning进化分配
- 批准号:
- 批准年份:2022
- 资助金额:30 万元
- 项目类别:青年科学基金项目
煤矿安全人机混合群智感知任务的约束动态多目标Q-learning进化分配
- 批准号:62203444
- 批准年份:2022
- 资助金额:30.00 万元
- 项目类别:青年科学基金项目
基于领弹失效考量的智能弹药编队短时在线Q-learning协同控制机理
- 批准号:62003314
- 批准年份:2020
- 资助金额:24 万元
- 项目类别:青年科学基金项目
集成上下文张量分解的e-learning资源推荐方法研究
- 批准号:61902016
- 批准年份:2019
- 资助金额:24.0 万元
- 项目类别:青年科学基金项目
具有时序迁移能力的Spiking-Transfer learning (脉冲-迁移学习)方法研究
- 批准号:61806040
- 批准年份:2018
- 资助金额:20.0 万元
- 项目类别:青年科学基金项目
相似海外基金
Understanding the Impact of Outdoor Science and Environmental Learning Experiences Through Community-Driven Outcomes
通过社区驱动的成果了解户外科学和环境学习体验的影响
- 批准号:
2314075 - 财政年份:2024
- 资助金额:
$ 8.32万 - 项目类别:
Continuing Grant
Integrating Self-Regulated Learning Into STEM Courses: Maximizing Learning Outcomes With The Success Through Self-Regulated Learning Framework
将自我调节学习融入 STEM 课程:通过自我调节学习框架取得成功,最大化学习成果
- 批准号:
2337176 - 财政年份:2024
- 资助金额:
$ 8.32万 - 项目类别:
Standard Grant
CAREER: Blessing of Nonconvexity in Machine Learning - Landscape Analysis and Efficient Algorithms
职业:机器学习中非凸性的祝福 - 景观分析和高效算法
- 批准号:
2337776 - 财政年份:2024
- 资助金额:
$ 8.32万 - 项目类别:
Continuing Grant
CAREER: Closing the Loop between Learning and Communication for Assistive Robot Arms
职业:关闭辅助机器人手臂的学习和交流之间的循环
- 批准号:
2337884 - 财政年份:2024
- 资助金额:
$ 8.32万 - 项目类别:
Standard Grant
CAREER: Adaptive Deep Learning Systems Towards Edge Intelligence
职业:迈向边缘智能的自适应深度学习系统
- 批准号:
2338512 - 财政年份:2024
- 资助金额:
$ 8.32万 - 项目类别:
Continuing Grant