当前位置: 首页> 学位论文 >详情
原文传递 无人船强化学习优化控制研究
论文题名: 无人船强化学习优化控制研究
关键词: 无人船;优化控制;轨迹跟踪控制;强化学习;数据驱动;有限时间控制
摘要: 近年来,无人船作为水面运动载体、观测平台和移动节点,其控制系统的稳定性往往不足以满足实际工程应用的控制指标。传统的PID控制算法,则需要反复调试控制参数应对不同的航行环境,不可避免地增加了任务和实验成本;已有的优化控制方法,需要结合专家经验,且假设系统未含有未建模动态,难以遍历覆盖所有航行工况和海洋环境;已有的人工智能控制算法,完全依赖于数据样本的多样性和丰富性,难以从运动机理上分析控制器性能。目前,复杂航行环境下的无人船控制系统应具备自主学习、自主动态调节和自主更新能力,且能够同时优化多个性能指标。因此,为了有效提升无人船系统的综合控制性能,亟需从理论算法上设计具有自主学习结构的优化控制方法。论文的研究对象为船体量小、推力有限,操纵性差的小型无人艇,基于强化学习方法,系统地研究无人船运动学和动力学的优化控制方法,动态观测的优化控制方法,误差反馈的指定性能优化控制方法,数据驱动的有限时间优化控制方法,论文主要开展以下研究工作:
  针对无人船运动学和动力学系统的优化控制问题,提出基于强化学习的轨迹跟踪控制方法。首先,结合Backstepping控制技术,分别建立运动学和动力学的误差动态方程,设计包含误差状态和控制输入的最优代价函数,根据最优控制理论和最优代价函数推导出最优的HJB方程,利用梯度下降法,分别计算运动学和动力学系统的最优控制输入;然后,基于神经网络构建Actor-Critic自学习控制优化框架,结合策略迭代的思想,使得控制输入和代价函数的权重同时更新,最终学习到最优控制输入;利用Lyapunov稳定性分析,证明被控系统中所有变量都是最终一致有界的;最后,仿真结果验证提出的控制方法在优化系统控制精度和收敛性方面的有效性和优越性。
  针对含有动力学未知和输入非线性的无人船优化控制问题,提出基于动态观测的强化学习控制方法。首先,构建跟踪误差动态方程,将死区非线性解耦成带有时变增益的控制输入和一个非线性函数,设计神经网络观测器在线辨识系统的未知动态;利用跟踪误差和控制输入设计非二次型的最优代价函数,结合梯度下降法求解最优控制输入;然后,通过构建Actor-Critic自学习控制优化框架,形成策略评估到策略改进的迭代学习机制,使得代价函数和控制输入的权重同时在线更新,以最小化代价函数为学习指标,获取最优控制输入;利用Lyapunov稳定性分析,证明闭环系统中所有变量都是有界的;最后,仿真结果验证提出的控制方法在优化系统控制精度、控制器参数和收敛性方面的有效性和优越性。
  针对只有状态可测的无人船优化控制问题,提出数据驱动的强化学习指定性能控制方法,设计无模型的优化控制框架。首先,引入一个指定性能函数,对其进行输入输出转换,将约束的跟踪误差系统转化为不受约束的一般严反馈系统;根据坐标变换后的跟踪误差和控制输入设计最优代价函数,利用梯度下降法求解最优控制输入;然后,结合积分强化学习方法,设计Actor-Critic自学习控制优化框架,在设定的时间区间内同时更新代价函数和控制输入,以最小化Bellman误差方程为目标,获取最优控制输入;利用Lyapunov稳定性分析,证明被控系统中所有变量都是有界的,跟踪误差始终收敛在预设的边界内,最大可能地克服系统在学习初期出现无规律高频振荡的问题;最后,仿真结果验证提出的控制方法在优化控制精度、控制器参数和系统暂态性能方面的有效性和优越性。
  针对模型信息完全未知的无人船优化控制问题,提出数据驱动的强化学习有限时间控制方法。首先,定义了包含跟踪误差和控制输入的非二次型最优代价函数,结合梯度下降法,设计有限时间最优控制输入;然后,仅利用系统跟踪误差状态,融合有限时间控制方法,构建数据驱动的Actor-Critic自学习控制优化框架;结合积分强化学习方法,Critic网络和Actor网络分别递归地更新代价函数和控制输入,以最小化Bellman误差方程为优化目标,得到最优控制输入;利用Lyapunov稳定性分析,证明闭环系统是实际有限时间稳定的,跟踪误差在有限的时间内收敛到零点的邻域内;最后,仿真结果验证提出的控制方法在优化系统控制精度、控制器参数、收敛速度、抗干扰性方面的有效性和优越性。
作者: 高颖
专业: 船舶电气工程
导师: 王宁
授予学位: 博士
授予学位单位: 大连海事大学
学位年度: 2022
检索历史
应用推荐