基于经验的无人机增强学习控制问题研究

结题报告

项目介绍

AI项目解读

基本信息

批准号：
61806217
项目类别：
青年科学基金项目
资助金额：
25.0万
负责人：
贾圣德
依托单位：
中国人民解放军国防科技大学
学科分类：
F0603.机器学习
结题年份：
2021
批准年份：
2018
项目状态：
已结题
起止时间：
2019-01-01 至2021-12-31

项目参与者：
王祥科；吴立珍；马兆伟；赵云云；余杨广；王亚静；刘维洲；
关键词：
免模型学习策略梯度 Bellman等式 MDP 策略迁移

项目摘要

With the increase of UAV missions, it is needed to have the control capability to adapt to environmental changes. Compared with the traditional model-based control methods, reinforcement learning provides an approach to handle unexpected environmental changes. However, the learning efficiency is too low to be used in on-line tasks. In order to solve this problem, we propose a control framework that combines the experience-based knowledge with reinforcement learning. The research includes three aspects: (1) We establish a behavior space for the problem of UAV control to reduce the dimension of the state space; (2) Based on the continuous-time Markov decision processes, we present an experience-based reinforcement learning algorithm to overcome the defect of low efficiency in online-learning; (3) We carry out UAV experiments to verify the proposed theories and algorithms in dynamic environments.

随着无人机任务范围的扩大，需要其具备适应环境变化的控制能力。相比有模型的传统控制方法，虽然无模型的增强学习控制方法为未预期环境变化提供解决途径，但现有方法存在着在线学习效率低等问题。为克服这一困难，本项目研究将经验知识与增强学习相结合的控制框架，具体研究内容叙述涵括三个方面：（1）建立无人机控制问题行为空间模型，实现状态空间的降维；（2）基于连续时间Markov决策过程，提出基于经验的增强学习算法，解决算法在线学习效率低的问题；（3）开展环境变化下无人机自适应飞行实验，验证项目所提理论与算法的有效性。

结项摘要

随着无人机任务范围的扩大，需要其具备适应环境变化的控制能力。相比有模型的传统控制方法，虽然无模型的增强学习控制方法为未预期环境变化提供解决途径，但现有方法存在着在线学习效率低等问题。为克服这一困难，本项目研究将经验知识与增强学习相结合的控制框架。.项目研究基于模型、策略等先验知识的增强学习控制方法，并应用于无人机飞行控制试验。（1）提出了连续时间Markov决策过程的增强学习框架与算法，并在固定翼无人机的轨迹跟踪问题中进行了仿真；（2）项目提出了传统滑模控制模型与迭代学习相结合的控制方法，大大缩小了学习过程的周期迭代次数，在四旋翼实物实验中与PID方法对比可以将超调量缩小1倍，可用于无人机高精度的轨迹控制。（3）模仿人类操控无人机时不依赖与复杂动力学模型的事实，提出了结合近似线性模型和增强学习的方法对无人机等非线性系统进行控制，通过理论推导、仿真验证了方法的合理性。（4）通过Kriging模型将已知样本点信息作为经验知识来预测未知样本点的信息，提出一种将Kriging模型应用于增强学习值函数的拟合的算法，以解决使用常规增强学习算法时大量的训练时间和实验成本问题。.对期望轨迹的精确跟踪控制是无人机提高性能、扩展应用范围的关键技术。在该问题上传统方法多基于静态线性模型与大量人工调参，包括PID控制、前馈反馈控制、最优控制等，这些方法能够在设计工况下稳定运行，但其对工况与模型参数变化敏感，难以主动适应动态变化的环境和平台非线性特征。本项目是针对不确定性、模型泛化性和环境自适应性的控制方法，后续将应用于无人机对期望轨迹的精确跟踪控制问题的研究。

项目成果

期刊论文数量（1）

专著数量（0）

科研奖励数量（0）

会议论文数量（4）

专利数量（6）

无人机空战决策技术研究进展

DOI：
--
发表时间：
2021
期刊：
国防科技
影响因子：
--
作者：
贾圣德
通讯作者：
贾圣德

数据更新时间：{{ journalArticles.updateTime }}

DOI：
{{ item.doi || "--"}}
发表时间：
{{ item.publish_year || "--" }}
期刊：
{{ item.journal_name }}
影响因子：
{{ item.factor || "--"}}
作者：
{{ item.authors }}
通讯作者：
{{ item.author }}

数据更新时间：{{ journalArticles.updateTime }}

作者：
{{ item.authors }}

数据更新时间：{{ monograph.updateTime }}

作者：
{{ item.authors }}

数据更新时间：{{ sciAawards.updateTime }}

作者：
{{ item.authors }}

数据更新时间：{{ conferencePapers.updateTime }}

作者：
{{ item.authors }}

数据更新时间：{{ patent.updateTime }}

其他文献

密集环境中无人机协同机动飞行运动规划方法综述

DOI：
10.11887/j.cn.202204001
发表时间：
2022
期刊：
国防科技大学学报
影响因子：
--
作者：
牛轶峰;刘天晴;李杰;贾圣德
通讯作者：
贾圣德

其他文献

DOI：
{{ item.doi || "--" }}
发表时间：
{{ item.publish_year || "--"}}
期刊：
{{ item.journal_name }}
影响因子：
{{ item.factor || "--" }}
作者：
{{ item.authors }}
通讯作者：
{{ item.author }}

内容获取失败，请点击重试

重试

联系客服

开始分析

查看分析示例

此项目为已结题，我已根据课题信息分析并撰写以下内容，帮您拓宽课题思路：

会员权益说明：

基于经验的无人机增强学习控制问题研究

基本信息

项目摘要

结项摘要

项目成果

其他文献

其他文献

AI项目摘要

AI项目思路

AI技术路线图

相似国自然基金

相似海外基金

AI项目解读示例

AI项目摘要：

AI项目思路：

AI技术路线图