论文题名: | 基于强化学习的多AUV分布式协同控制方法研究 |
关键词: | 自主水下机器人;分布式控制器;强化学习;干扰观测器;反馈控制器 |
摘要: | 近年来,自主水下机器人(AutonomousUnderwaterVehicle,AUV)在海洋环境数据收集、水下考古、资源勘探等领域发挥着越来越重要的作用。随着工作环境更加复杂多变,对工作效率的要求提高,单体AUV已经难以胜任一些任务,于是多智能体编队这一工作模式有了突出优势。多AUV系统在执行任务时可以按规划队形分布在同一空间内的某几个点相互配合,通过携带的传感器或机械臂等装置共同完成指定任务。因此编队有着单个机器人所不能及的优势,同时编队的运动控制问题也就成为了一大研究重点。本论文基于某人工智能项目,针对多AUV编队协同控制问题,使用一种与强化学习结合的分布式控制方法来提高编队系统的学习能力,实现精确的水下运动控制效果。 论文首先提出了以强化学习算法为基础的无模型分布式控制方法。这一部分工作针对非智能控制方法推导大多需要具体数学模型的情况,同时考虑到这些方法不具有学习性能,对环境适应能力较差等问题,先对Actor-Critic算法原理和改进方法进行了阐述,而后将算法与代数图论理论结合,设计出一种不基于模型的分布式控制系统,同时对强化学习算法的要素设计进行了阐述。仿真结果表明,设计的分布式控制系统能基本保证AUV编队对路径的跟踪,并将编队队形变化误差保持在一定范围内。 其次提出了基于Actor-Critic算法的参数自适应分布式控制方法。针对完全基于强化学习的控制系统快速性和稳定性不够的问题,以及非智能分布式控制器大多不具有学习性能,参数调节严格依赖先验经验等问题,将Actor-Critic算法与基于反步法的分布式控制方法结合,设计了一种新的参数自适应分布式控制器。通过仿真实验,证明了这种控制方法在传统反步法分布式控制器的基础上,通过调节参数优化了控制器的性能,使AUV编队轨迹跟踪误差更小,队形保持能力更佳。 最后在上述工作基础上设计了分布式未知干扰观测器。这一部分针对多AUV编队运动环境复杂,洋流干扰较强,单独的反馈控制系统不足以抵消干扰的影响,队形容易发生畸变的问题,加入了前馈观测系统。通过仿真实验,证明了前馈的观测器与反馈控制器结合形成的复合控制系统对强干扰下编队轨迹跟踪和队形保持有极佳的控制效果。 考虑到上述控制算法在实际工程中应用可行性,设计了软硬件结合的仿真系统。通过结合嵌入式开发板和图形仿真界面,模拟实际工程中各部分的通信原理,证明了设计的分布式控制系统在实际工程中应用的可行性。 |
作者: | 吴淼 |
专业: | 船舶与海洋工程 |
导师: | 王卓;曾文静 |
授予学位: | 硕士 |
授予学位单位: | 哈尔滨工程大学 |
学位年度: | 2021 |