Stochastic Optimal Control based on Gaussian Processes Regression

基于高斯过程回归的随机最优控制

基本信息

项目摘要

In stochastic control, optimal decision making in continuous domains under statistically modeled uncertainty is usually addressed via Dynamic Programming (DP). The goal consists in finding policies that map the information available to the controller to a control input in such a way that a performance criterion, often defined in terms of costs, is optimized. Usually, using nonlinear filtering methods, this information is condensed into a probability distribution that represents the state estimate of the system to be controlled, and the policies map these distributions to control inputs.Unfortunately, DP is intractable except in a few very special cases. Therefore, approximate but tractable approaches are of interest. One such approach is the point-based value iteration algorithm, where each point is a probability distribution. In this approach, the controller maintains the optimal costs for a set of representative state estimates instead of trying the impossible task of maintaining the costs for all state estimates as it would be required in classical DP. Then, it uses this information in order to obtain an approximation of the optimal costs at a state estimate that is needed for decision making. As we see, point-based value iteration requires approximation methods for functions defined over general probability distributions. However, state-of-the-art approaches either restrict the class of possible state estimates or assume finite sets of control inputs and measurements. Although workarounds for continuous control inputs and measurements exist, they usually require additional approximations. For this reason, we propose a novel approach to stochastic control of nonlinear dynamical systems with continuous states, control inputs, and measurements that is based on Gaussian Process (GP) regression. Classical GP regression only allows for deterministic vector-valued inputs. For this reason, we propose a novel extension of the GP framework to inputs given in form of probability distributions. By doing so, we extend the GP framework to infinite-dimensional inputs. Our approach is based on the idea to define the covariance functions that determine the GP in terms of the distance between the probability distributions provided as inputs to the GP.In the course of the project, we plan to develop a solid framework for GPs defined over general probability distributions and to derive stochastic control algorithms that use such GPs to compute the policy. We believe that the proposed project will substantially contribute to research on stochastic control. Furthermore, the presented idea for defining GPs with inputs given in terms of probability distributions can also be used in machine learning research in order to derive other non-parametric Bayesian regression and classification methods over probability distributions.
在随机控制中,通常通过动态编程(DP)来解决统计建模不确定性下连续域中的最佳决策。目标包括查找将可用的信息映射到控制器的控制输入的策略,以使通常根据成本定义的性能标准优化。通常,使用非线性过滤方法,将此信息凝结成代表要控制的系统的状态估计的概率分布,并且策略将这些分布映射到控制输入。因此,大约但可进行的方法是感兴趣的。一种方法是基于点的值迭代算法,其中每个点都是概率分布。在这种方法中,控制器维持一组代表性状态估计的最佳成本,而不是尝试不可能的任务来维持所有状态估计的成本,因为它在经典DP中需要。然后,它使用此信息来在决策所需的州估算中获得最佳成本的近似值。如我们所见,基于点的价值迭代需要针对一般概率分布定义的函数的近似方法。但是,最新的方法要么限制可能的状态估计等级,要么假设控制输入和测量值有限。尽管存在连续控制输入和测量值的解决方法,但它们通常需要额外的近似值。因此,我们提出了一种新的方法,可以对具有连续状态,控制输入和基于高斯过程(GP)回归的非线性动力学系统进行随机控制。经典的GP回归仅允许确定性矢量值输入。因此,我们提出了以概率分布形式给出的输入的新型GP框架的新扩展。通过这样做,我们将GP框架扩展到无限维输入。我们的方法是基于定义协方差函数的想法一般概率分布并得出使用此类GP来计算策略的随机控制算法。我们认为,拟议的项目将大大有助于对随机控制的研究。此外,在机器学习研究中,还可以使用以概率分布来定义输入的GP的想法,以便得出其他非参数贝叶斯回归和分类方法,而不是概率分布。

项目成果

期刊论文数量(3)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
Stochastic Optimal Control Using Gaussian Process Regression over Probability Distributions
  • DOI:
    10.23919/acc.2019.8814658
  • 发表时间:
    2019-07
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Jana Mayer;Maxim Dolgov;Tobias Stickling;Selim Özgen;Florian Rosenthal;U. Hanebeck
  • 通讯作者:
    Jana Mayer;Maxim Dolgov;Tobias Stickling;Selim Özgen;Florian Rosenthal;U. Hanebeck
Position and Speed Estimation of PMSMs Using Gaussian Processes
使用高斯过程估计 PMSM 的位置和速度
  • DOI:
    10.1016/j.ifacol.2020.12.261
  • 发表时间:
    2020
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Ajit Basarur;Mariana Petrova;Fabian Sordon;Antonio Zea;Uwe D. Hanebeck
  • 通讯作者:
    Uwe D. Hanebeck
Position and Speed Estimation for BLDC Motors Using Fourier-Series Regression
{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ patent.updateTime }}

Professor Dr.-Ing. Uwe D. Hanebeck其他文献

Professor Dr.-Ing. Uwe D. Hanebeck的其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

{{ truncateString('Professor Dr.-Ing. Uwe D. Hanebeck', 18)}}的其他基金

CoCPN-ng – Cooperative Cyber-Physical Networking: Next Generation
CoCPN-ng â 协作网络物理网络:下一代
  • 批准号:
    432191479
  • 财政年份:
    2019
  • 资助金额:
    --
  • 项目类别:
    Priority Programmes
Recursive Estimation of Rigid Body Motions
刚体运动的递归估计
  • 批准号:
    325035548
  • 财政年份:
    2016
  • 资助金额:
    --
  • 项目类别:
    Research Grants
CoCPN: Cooperative Cyber Physical Networking
CoCPN:协作网络物理网络
  • 批准号:
    315021670
  • 财政年份:
    2016
  • 资助金额:
    --
  • 项目类别:
    Priority Programmes
Cooperative Approaches to Design of Nonlinear Filters
非线性滤波器设计的协作方法
  • 批准号:
    283072193
  • 财政年份:
    2016
  • 资助金额:
    --
  • 项目类别:
    Research Grants
Chance-Constrained Model Predictive Control based on Deterministic Density Approximation and Homotopy Continuation
基于确定性密度逼近和同伦延拓的机会约束模型预测控制
  • 批准号:
    267437392
  • 财政年份:
    2014
  • 资助金额:
    --
  • 项目类别:
    Research Grants
Consistent Fusion in Networked Estimation Systems
网络估计系统中的一致融合
  • 批准号:
    232171657
  • 财政年份:
    2013
  • 资助金额:
    --
  • 项目类别:
    Research Grants
Active Random Hypersurface Models: Simultaneous Shape and Pose Tracking of Extended Objects in Noisy Point Clouds
主动随机超曲面模型:噪声点云中扩展对象的同时形状和姿态跟踪
  • 批准号:
    234520279
  • 财政年份:
    2013
  • 资助金额:
    --
  • 项目类别:
    Research Grants
Stochastische modell-prädiktive Regelung von verteilt-parametrischen Systemen über digitale Netze unter Verwendung von virtuellen Mess- und Stellgrößen
使用虚拟测量和操纵变量通过数字网络对分布式参数系统进行随机模型预测控制
  • 批准号:
    173876058
  • 财政年份:
    2010
  • 资助金额:
    --
  • 项目类别:
    Priority Programmes
Hochdimensionale nichtlineare Zustandsschätzung auf Basis ungewisser Wahrscheinlichkeitsdichten
基于不确定概率密度的高维非线性状态估计
  • 批准号:
    58242181
  • 财政年份:
    2008
  • 资助金额:
    --
  • 项目类别:
    Research Grants
Integrierte nichtlineare modell-prädiktive Regelung und Schätzung unter umfassender Berücksichtigung stochastischer Unsicherheiten
综合考虑随机不确定性的集成非线性模型预测控制和估计
  • 批准号:
    75650505
  • 财政年份:
    2008
  • 资助金额:
    --
  • 项目类别:
    Research Grants

相似国自然基金

基于情境最佳化的模型预测控制方法研究
  • 批准号:
    62303416
  • 批准年份:
    2023
  • 资助金额:
    30 万元
  • 项目类别:
    青年科学基金项目
水环境容量控制目标下的流域最佳管理措施空间降尺度优化方法研究
  • 批准号:
  • 批准年份:
    2021
  • 资助金额:
    30 万元
  • 项目类别:
    青年科学基金项目
面向最佳热负荷分配的氧化铝多效降膜蒸发过程的建模与优化控制方法
  • 批准号:
    61963036
  • 批准年份:
    2019
  • 资助金额:
    39 万元
  • 项目类别:
    地区科学基金项目
离子引擎供电电源的超高增益变换器及最佳负载点运行控制
  • 批准号:
    51907032
  • 批准年份:
    2019
  • 资助金额:
    25.0 万元
  • 项目类别:
    青年科学基金项目
观测反馈能稳的控制系统的最佳结构参数
  • 批准号:
    11471080
  • 批准年份:
    2014
  • 资助金额:
    60.0 万元
  • 项目类别:
    面上项目

相似海外基金

Stochastic optimal control problems in risk management
风险管理中的随机最优控制问题
  • 批准号:
    RGPIN-2020-04338
  • 财政年份:
    2022
  • 资助金额:
    --
  • 项目类别:
    Discovery Grants Program - Individual
Using stochastic optimal feedback control and computational motor control to design personalized and adaptive human robot interfaces
使用随机最优反馈控制和计算电机控制来设计个性化和自适应人类机器人界面
  • 批准号:
    RGPIN-2021-02625
  • 财政年份:
    2022
  • 资助金额:
    --
  • 项目类别:
    Discovery Grants Program - Individual
Stochastic optimal control in mathematical finance
数学金融中的随机最优控制
  • 批准号:
    RGPIN-2018-03978
  • 财政年份:
    2022
  • 资助金额:
    --
  • 项目类别:
    Discovery Grants Program - Individual
Using stochastic optimal feedback control and computational motor control to design personalized and adaptive human robot interfaces
使用随机最优反馈控制和计算电机控制来设计个性化和自适应人类机器人界面
  • 批准号:
    RGPIN-2021-02625
  • 财政年份:
    2021
  • 资助金额:
    --
  • 项目类别:
    Discovery Grants Program - Individual
Stochastic Optimal Control with High Dimensional Data
高维数据的随机最优控制
  • 批准号:
    2106462
  • 财政年份:
    2021
  • 资助金额:
    --
  • 项目类别:
    Standard Grant
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了