Data-Driven Learning Optimal Control for Stochastic Systems

随机系统的数据驱动学习最优控制

基本信息

批准号：
18H05899
负责人：
豊田充
金额：
$ 1.5万
依托单位：
The Institute of Statistical Mathematics
依托单位国家：
日本
项目类别：
Grant-in-Aid for Research Activity Start-up
财政年份：
2018
资助国家：
日本
起止时间：
2018-08-24 至 2020-03-31
项目状态：
已结题

项目摘要

本研究課題では動的システムを対象として，観測されたデータをもとに，制御対象のダイナミクスや評価関数を学習しながら最適化するアルゴリズムの研究を実施した．具体的な制御対象としては，微分方程式で表される連続時間のダイナミクスと離散的な論理状態を確率的に遷移する確率論理システムに焦点をあて検討を行った．(1) 連続時間微分方程式であらわされるダイナミクスを対象とした研究に関しては，従来静的関数の最適化に用いられていたガウシアンプロセスによるベイズ的最適化手法を最適制御問題に拡張し，有限時間最適制御問題をデータ駆動的に最適化する方法を得た．さらに動的システム論の知見を活用した効率的な評価関数の勾配計算手法によって計算の実現可能性を示し，また，アルゴリズムの適用によって達成される最適性に関しても評価を行った．(2) 2値の離散的な論理状態をとり，それらが確率的な遷移に従う確率論理システムである確率ブーリアンネットワークについて，基礎的な結果としてモデル内の確率を得られた計測データからベイズ的に推定する手法が得られた．また，従来ではモデル内の選択確率とよばれるパラメータは確定的に与えられ制御問題が定式化されていたが，確率的に不確かな選択確率をもつ最適制御問題として新たな問題設定を行い，推定を行いながら最適制御するアルゴリズムを検討した．付随的な結果として，従来の可制御性の検討を最適制御問題として取り扱う手法を考案し，従来研究よりも広い枠組みで可制御性が議論できることを示した．

该研究主题的重点是动态系统，并研究了基于观察到的数据来优化受控对象的动态和评估功能的算法。特定的控制对象集中于通过微分方程表达的连续时间的动力学和随机离散逻辑状态之间过渡的随机逻辑系统。（1）关于通过连续时间微分方程表达的动力学的研究，我们使用高斯过程扩展了贝叶斯优化方法，该过程以前用于优化静态功能，以通过数据驱动的优化优化有限的时间最佳控制问题。此外，我们使用有效的评估函数的梯度计算方法证明了计算的可行性，该方法利用了动态系统理论的知识，并通过应用算法评估了实现的最佳性。（2）从模型中获得的基本结果中获得了二进制离散逻辑状态的概率布尔网络的贝叶斯方法，该方法采用了二进制离散逻辑状态，并且是遵循概率过渡的随机逻辑系统。此外，尽管从传统上讲，模型中称为选择概率的参数已经确定性化并提出了控制问题，但我们已经检查了一种算法，该算法将新问题用作随机选择概率的最佳控制问题，并在执行估算时优化了控制。偶然的结果是一种处理常规可控性研究作为最佳控制问题的方法，并表明可以在更广泛的框架中讨论可控性，而不是传统研究。