Development of Collision Avoidance System for Maritime Autonomous Surface Ship: Imitating and Surpassing Human Experts by Deep Inverse Reinforcement Learning
海上自主水面船舶防撞系统开发:通过深度逆强化学习模仿并超越人类专家
基本信息
- 批准号:22KJ2623
- 负责人:
- 金额:$ 1.34万
- 依托单位:
- 依托单位国家:日本
- 项目类别:Grant-in-Aid for JSPS Fellows
- 财政年份:2023
- 资助国家:日本
- 起止时间:2023-03-08 至 2025-03-31
- 项目状态:未结题
- 来源:
- 关键词:
项目摘要
本研究課題では、人間の経験に従って実行される避航操船行動の定量化を図るとともに、熟練船長の感覚に基づく避航航路の獲得に取り組んだ。まず、最大エントロピー逆強化学習を用いて任意の避航航路から最適報酬を導出する手法を提案した。その検証のため、Dangerous Area of Collision (DAC)と呼ばれる衝突危険領域を避けるようなサンプル航路をあらかじめ生成し、その航路を逆強化学習の入力とすることで報酬関数を推定した。推定された報酬分布がDACの形状と良く一致することから、操船の感覚を定量化する手段として最大エントロピー逆強化学習が有効であることを示した。続いて、一般商船の船長経験者の協力のもと、船長による操船シミュレーション実験を実施した。実験で得られた操船航路をエキスパートデータとし報酬関数を導出することで、熟練船長による避航操船の特徴を明らかにした。さらに、得られる報酬が最大となるような経路探索を行うことで熟練船長の感覚に基づく最適航路計画を提案し、今津問題と呼ばれる避航操船のテストシナリオを用いて最適航路計画の有用性を示した。一連の研究成果は日本船舶海洋工学会論文集36巻に掲載されている。他方、研究の遂行にあたり、逆強化学習の適用範囲が小規模かつ離散的な状態空間に限られるという課題に直面した。そこで、強化学習と逆強化学習の2段階最適化問題を1つのミニマックス問題として定式化した敵対的生成模倣学習を導入し、大規模連続状態空間に適用可能な避航航路計画手法を開発した。本年度は、相手船1隻に対する避航航路のサンプルデータが与えられた際、本手法によって所与の航路を精度良く模倣できること確認した。
在这个研究项目中,我们试图量化基于人类经验的回避动作,并致力于根据经验丰富的船长的感觉获取回避路线。首先,我们提出了一种使用最大熵逆强化学习从任意回避路线得出最佳奖励的方法。为了验证这一点,我们提前生成了一条避开危险碰撞区域(DAC)的样本路线,并使用该路线作为逆强化学习的输入来估计奖励函数。估计的奖励分布与 DAC 的形状匹配得很好,表明最大熵逆强化学习作为量化船舶操纵感觉的手段是有效的。接下来,在经验丰富的商船船长的配合下,我们进行了船长的船舶操纵模拟实验。通过利用实验中获得的船舶操纵航线作为专家数据推导奖励函数,阐明了经验丰富的船长进行让路操纵的特点。此外,通过搜索使获得的奖励最大化的航线,我们根据经验丰富的船长的感觉提出最佳航线计划,并使用称为今津问题的让路机动测试场景证明最佳航线计划的有用性。塔。一系列研究成果发表在《日本造船海洋工程学会会刊》第36卷上。另一方面,在开展研究时,我们面临着逆强化学习的应用范围仅限于小而离散的状态空间的问题。因此,我们引入了对抗性生成模仿学习,将强化学习和逆强化学习的两步优化问题表述为单个极小极大问题,并开发了一种可应用于大规模连续状态空间的回避路线规划方法。今年,我们证实,当给定单艘敌船的避让航线样本数据时,该方法可以准确地模拟给定航线。
项目成果
期刊论文数量(4)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
自動避航操船のための最適航路計画の策定 -逆強化学習による熟練船長の模倣-
制定自动让路机动的最佳航线规划 -使用逆强化学习模仿经验丰富的船长-
- DOI:
- 发表时间:2022
- 期刊:
- 影响因子:0
- 作者:檜垣岳史;橋本博公;吉岡舜
- 通讯作者:吉岡舜
Investigation and Imitation of Human Captains' Maneuver Using Inverse Reinforcement Learning
人类船长的考察与模仿
- DOI:10.2534/jjasnaoe.36.137
- 发表时间:2022
- 期刊:
- 影响因子:0
- 作者:Higaki Takefumi;Hashimoto Hirotada;Yoshioka Hitoshi
- 通讯作者:Yoshioka Hitoshi
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
数据更新时间:{{ journalArticles.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ monograph.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ sciAawards.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ conferencePapers.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ patent.updateTime }}
檜垣 岳史其他文献
檜垣 岳史的其他文献
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
相似海外基金
若手航海者の総合的な安全行動支援指標の構築
青少年航海者综合安全行为支持指数构建
- 批准号:
22K02935 - 财政年份:2022
- 资助金额:
$ 1.34万 - 项目类别:
Grant-in-Aid for Scientific Research (C)
OZTを用いた避航操船スキルの評価および教育訓練への利用
使用 OZT 评估避让船操纵技能并用于教育和培训
- 批准号:
21K04498 - 财政年份:2021
- 资助金额:
$ 1.34万 - 项目类别:
Grant-in-Aid for Scientific Research (C)
Development of AI for autonomous ship handling to accelerate ocean-bottom exploration, and its demonstration at actual sea
开发用于加速海底探索的自主船舶处理人工智能及其在实际海上的演示
- 批准号:
20H00284 - 财政年份:2020
- 资助金额:
$ 1.34万 - 项目类别:
Grant-in-Aid for Scientific Research (A)
Development of Collision Avoidance Model Based on Simulation Analysis of Automatic Collision Avoidance Maneuvering Using Deep Reinforcement Learning
基于使用深度强化学习的自动防撞机动仿真分析的防撞模型的开发
- 批准号:
20K14971 - 财政年份:2020
- 资助金额:
$ 1.34万 - 项目类别:
Grant-in-Aid for Early-Career Scientists
A study of robust ship avoidance avoidance algorithms in an environment with a variety of autonomous vessels
多种自主船舶环境下鲁棒船舶避让算法的研究
- 批准号:
20K14968 - 财政年份:2020
- 资助金额:
$ 1.34万 - 项目类别:
Grant-in-Aid for Early-Career Scientists