安全性を保証したヘテロジニアスなマルチロボットシステムの学習制御
安全有保障的异构多机器人系统的学习控制
基本信息
- 批准号:21J10780
- 负责人:
- 金额:$ 1.09万
- 依托单位:
- 依托单位国家:日本
- 项目类别:Grant-in-Aid for JSPS Fellows
- 财政年份:2021
- 资助国家:日本
- 起止时间:2021-04-28 至 2023-03-31
- 项目状态:已结题
- 来源:
- 关键词:
项目摘要
信号時相論理(Signal Temporal Logic, STL)で記述された制御仕様を満たすための深層強化学習に関する研究をおこなった.主に下記の2つの課題に取り組んだ.1) ネットワーク化制御への応用遠隔に制御対象を制御するネットワーク化制御では,制御対象と制御器との間のデータ転送に遅延が生じる.本研究では,遅延の影響を考慮した上で,STL仕様を満たす方策を学習する手法を考案した.一般に,時間的な制御仕様を満たすためには過去のシステムの状態列が必要となるが,加えて,遅延を学習主体が考慮できるよう,過去の制御入力列も環境の状態の一部として利用する手法を考案し,シミュレーションによってその有効性を確認した.この研究成果を査読つき国際会議にて発表した.2) STL制約つき深層強化学習の開発本研究では,燃料消費量などのSTL仕様とは別の制御指標を定義し,STL仕様を満たすという制約の下で,制御指標に関して方策の最適化をおこなうアルゴリズムを考案した.制約付き最適制御問題を,制約付きマルコフ決定過程(Constrained Markov Decision Process, CMDP)によって定式化し,このCMDPに対してラグランジュ緩和を用いたアルゴリズムによって所望の方策を設計する方法を開発した.ただ,学習初期の段階では,制約と制御指標の両立が難しかったため,まずはSTL仕様を満たす方策を事前学習し,その方策をもとに,制御指標に関して方策を最適化するアルゴリズムを提案し,その有効性をシミュレーションによって確認した.この研究成果は査読付き英文誌に掲載された.最終的にはマルチロボットシステムへの応用までは遂行できなかったが,時相論理を用いることで,より広いクラスの安全性を考えることが可能となった点から,当初の研究計画では想定していない進展があったと評価する.
我们进行了深度强化学习的研究,以满足信号时序逻辑(STL)中描述的控制规范。我们主要做了以下两个问题。 1)在网络控制中的应用 在远程控制受控对象的网络控制中,受控对象和控制器之间的数据传输存在延迟。在这项研究中,我们设计了一种方法来学习满足 STL 规范的策略,同时考虑延迟的影响。一般来说,过去的系统状态序列需要满足时间控制规范,但此外,过去的控制输入序列也被用作环境状态的一部分,以便学习主体可以考虑延迟,我们设计了一种方法来做到这一点。通过仿真验证了其有效性。这项研究的结果已在一次同行评审的国际会议上公布。 2)具有STL约束的深度强化学习的发展在本研究中,我们定义了STL规范之外的控制指标,例如燃料消耗,并在满足STL规范的约束下优化了有关控制指标的策略,我设计了一种算法。我们使用约束马尔可夫决策过程 (CMDP) 制定了约束最优控制问题,并开发了一种使用针对该 CMDP 的拉格朗日松弛算法来设计所需策略的方法。然而,在学习初期,很难平衡约束和控制指标,因此我们首先提前学习满足STL规范的策略,并基于该策略提出一种在控制方面优化该策略的算法通过仿真验证了指标的有效性。这项研究的结果发表在同行评审的英文期刊上。最终,我们无法将其应用于多机器人系统,但使用时间逻辑可以考虑更广泛的安全类别,这在最初的研究计划中是没有预料到的。据评估,已经取得了进展。制成。
项目成果
期刊论文数量(8)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
Deep Reinforcement Learning Based Networked Control with Network Delays for Signal Temporal Logic Specifications
基于深度强化学习的网络控制,具有信号时态逻辑规范的网络延迟
- DOI:10.1109/etfa52439.2022.9921505
- 发表时间:2021-08-03
- 期刊:
- 影响因子:0
- 作者:Junya Ikemoto;T. Ushio
- 通讯作者:T. Ushio
Deep Reinforcement Learning Under Signal Temporal Logic Constraints Using Lagrangian Relaxation
使用拉格朗日松弛在信号时态逻辑约束下的深度强化学习
- DOI:10.1109/access.2022.3218216
- 发表时间:2022
- 期刊:
- 影响因子:3.9
- 作者:Junya Ikemoto;Toshimitsu Ushio
- 通讯作者:Toshimitsu Ushio
Deep Reinforcement Learning Based Networked Control with Network Delays for Signal Temporal Logic Specifications
基于深度强化学习的网络控制,具有信号时态逻辑规范的网络延迟
- DOI:
- 发表时间:2022
- 期刊:
- 影响因子:0
- 作者:Junya Ikemoto;Toshimitsu Ushio
- 通讯作者:Toshimitsu Ushio
Continuous deep Q-learning with a simulator for stabilization of uncertain discrete-time systems
使用模拟器进行连续深度 Q 学习,以稳定不确定离散时间系统
- DOI:10.1587/nolta.12.738
- 发表时间:2021
- 期刊:
- 影响因子:0
- 作者:Ikemoto Junya;Ushio Toshimitsu
- 通讯作者:Ushio Toshimitsu
Continuous deep Q-learning with a simulator for stabilization of uncertain discrete-time systems
使用模拟器进行连续深度 Q 学习,以稳定不确定离散时间系统
- DOI:10.1587/nolta.12.738
- 发表时间:2021
- 期刊:
- 影响因子:0
- 作者:Ikemoto Junya;Ushio Toshimitsu
- 通讯作者:Ushio Toshimitsu
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
数据更新时间:{{ journalArticles.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ monograph.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ sciAawards.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ conferencePapers.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ patent.updateTime }}
池本 隼也其他文献
池本 隼也的其他文献
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
相似国自然基金
浸润特性调制的统计热力学研究
- 批准号:21173271
- 批准年份:2011
- 资助金额:58.0 万元
- 项目类别:面上项目
相似海外基金
進行振動解の時空間的な同期現象に対する位相縮約理論を基盤とした最適化手法の開発
基于相位约简理论的行进振动解时空同步现象优化方法的发展
- 批准号:
24K06910 - 财政年份:2024
- 资助金额:
$ 1.09万 - 项目类别:
Grant-in-Aid for Scientific Research (C)
Construction of Mathematical Logic System to Verify Quantum Communication Networks and Its Quantum Computational Implications
验证量子通信网络的数学逻辑系统的构建及其量子计算意义
- 批准号:
22KJ1483 - 财政年份:2023
- 资助金额:
$ 1.09万 - 项目类别:
Grant-in-Aid for JSPS Fellows
The distribution of phase-unlocking and phase-edge movement and its implications for phase theory
相位解锁和相位边缘运动的分布及其对相位理论的影响
- 批准号:
2890576 - 财政年份:2023
- 资助金额:
$ 1.09万 - 项目类别:
Studentship
SBIR Phase I: Artificial Intelligence and Network Theory for Elections
SBIR 第一阶段:选举的人工智能和网络理论
- 批准号:
2309896 - 财政年份:2023
- 资助金额:
$ 1.09万 - 项目类别:
Standard Grant
Dysfunctional behavior with friends during middle childhood as a precursor to borderline personality pathology
童年中期与朋友的功能失调行为是边缘人格病理学的先兆
- 批准号:
10806402 - 财政年份:2023
- 资助金额:
$ 1.09万 - 项目类别: