安全性を保証したヘテロジニアスなマルチロボットシステムの学習制御

安全有保障的异构多机器人系统的学习控制

基本信息

批准号：
21J10780
负责人：
池本隼也
金额：
$ 1.09万
依托单位：
Osaka University
依托单位国家：
日本
项目类别：
Grant-in-Aid for JSPS Fellows
财政年份：
2021
资助国家：
日本
起止时间：
2021-04-28 至 2023-03-31
项目状态：
已结题

项目摘要

信号時相論理(Signal Temporal Logic, STL)で記述された制御仕様を満たすための深層強化学習に関する研究をおこなった．主に下記の2つの課題に取り組んだ．1) ネットワーク化制御への応用遠隔に制御対象を制御するネットワーク化制御では，制御対象と制御器との間のデータ転送に遅延が生じる．本研究では，遅延の影響を考慮した上で，STL仕様を満たす方策を学習する手法を考案した．一般に，時間的な制御仕様を満たすためには過去のシステムの状態列が必要となるが，加えて，遅延を学習主体が考慮できるよう，過去の制御入力列も環境の状態の一部として利用する手法を考案し，シミュレーションによってその有効性を確認した．この研究成果を査読つき国際会議にて発表した．2) STL制約つき深層強化学習の開発本研究では，燃料消費量などのSTL仕様とは別の制御指標を定義し，STL仕様を満たすという制約の下で，制御指標に関して方策の最適化をおこなうアルゴリズムを考案した．制約付き最適制御問題を，制約付きマルコフ決定過程(Constrained Markov Decision Process, CMDP)によって定式化し，このCMDPに対してラグランジュ緩和を用いたアルゴリズムによって所望の方策を設計する方法を開発した．ただ，学習初期の段階では，制約と制御指標の両立が難しかったため，まずはSTL仕様を満たす方策を事前学習し，その方策をもとに，制御指標に関して方策を最適化するアルゴリズムを提案し，その有効性をシミュレーションによって確認した．この研究成果は査読付き英文誌に掲載された．最終的にはマルチロボットシステムへの応用までは遂行できなかったが，時相論理を用いることで，より広いクラスの安全性を考えることが可能となった点から，当初の研究計画では想定していない進展があったと評価する．

我们进行了深度强化学习的研究，以满足信号时序逻辑（STL）中描述的控制规范。我们主要做了以下两个问题。 1）在网络控制中的应用在远程控制受控对象的网络控制中，受控对象和控制器之间的数据传输存在延迟。在这项研究中，我们设计了一种方法来学习满足 STL 规范的策略，同时考虑延迟的影响。一般来说，过去的系统状态序列需要满足时间控制规范，但此外，过去的控制输入序列也被用作环境状态的一部分，以便学习主体可以考虑延迟，我们设计了一种方法来做到这一点。通过仿真验证了其有效性。这项研究的结果已在一次同行评审的国际会议上公布。 2）具有STL约束的深度强化学习的发展在本研究中，我们定义了STL规范之外的控制指标，例如燃料消耗，并在满足STL规范的约束下优化了有关控制指标的策略，我设计了一种算法。我们使用约束马尔可夫决策过程 (CMDP) 制定了约束最优控制问题，并开发了一种使用针对该 CMDP 的拉格朗日松弛算法来设计所需策略的方法。然而，在学习初期，很难平衡约束和控制指标，因此我们首先提前学习满足STL规范的策略，并基于该策略提出一种在控制方面优化该策略的算法通过仿真验证了指标的有效性。这项研究的结果发表在同行评审的英文期刊上。最终，我们无法将其应用于多机器人系统，但使用时间逻辑可以考虑更广泛的安全类别，这在最初的研究计划中是没有预料到的。据评估，已经取得了进展。制成。

项目成果

期刊论文数量（8）

专著数量（0）

科研奖励数量（0）

会议论文数量（0）

专利数量（0）

Deep Reinforcement Learning Based Networked Control with Network Delays for Signal Temporal Logic Specifications

基于深度强化学习的网络控制，具有信号时态逻辑规范的网络延迟

DOI：
10.1109/etfa52439.2022.9921505
发表时间：
2021-08-03
期刊：
2022 IEEE 27th International Conference on Emerging Technologies and Factory Automation (ETFA)
影响因子：
0
作者：
Junya Ikemoto;T. Ushio
通讯作者：
T. Ushio

Deep Reinforcement Learning Under Signal Temporal Logic Constraints Using Lagrangian Relaxation

使用拉格朗日松弛在信号时态逻辑约束下的深度强化学习