论文题名: | 基于深度强化学习的无人艇运动控制研究 |
关键词: | 无人水面艇;深度强化学习;模型预测控制;轨迹跟踪 |
摘要: | 随着世界经济和科技的不断发展,对海洋的开发与利用力度渐加大。无人水面艇(简称无人艇),作为海洋开发和利用的工具之一,具有成本低、智能化程度高、可扩展性强等优点并受到了广泛的关注。在无人艇众多研究领域中,运动控制是其中备受关注的研究领域之一。近年来,人工智能技术得到了空前的发展,其中以深度强化学习框架为核心的算法在科研领域引起了巨大反响。越来越多的科研人员正投入其中。因此本文将从深度强化学习角度出发,研究无人艇的运动控制问题。具体研究工作如下: 第一,针对单一外界扰动下欠驱动无人艇的建模与控制问题。设计了一种基于深度学习的建模算法和基于模型预测的控制算法。在建模阶段,通过收集欠驱动无人艇的离线状态-动作数据作为训练样本结合Adam优化方法来训练深度前馈神经网络,使其拟合无人艇数学模型。在控制阶段,将通过深度学习算法建立的深度神经网络作为预测模型结合模型预测控制算法来选择优化控制策略,进而控制无人艇。最后仿真无人艇跟踪期望路径、轨迹的任务,验证了算法的可行性与有效性。 第二,针对时变海洋环境下多扰动、深度学习算法使用训练数据过多以及离线训练的神经网络可能无法适应新环境的问题,以全驱动无人艇为研究对象,设计了一种基于深度强化学习的控制算法。首先利用少量离线数据训练深度神经网络,后与模型预测控制算法结合控制无人艇执行任务并在线收集无人艇的状态-动作数据,然后利用新、旧数据一起强化训练当前的神经网络。交替进行收集数据和强化训练,直至达到最大迭代次数。最后仿真无人艇跟踪期望的路径、轨迹,验证算法的有效性。 第三,考虑到时变海洋环境下多扰动,欠驱动无人艇的强耦合、含约束、抗干扰能力弱等特性以及不同参数下深度强化学习算法对控制效果的影响,针对欠驱动无人艇的控制问题,采用了基于深度强化学习的控制算法。通过交替进行收集在线数据与强化训练深度神经网络,进而不断地优化深度神经网络,直至到达设定的最大迭代次数停止。最后仿真无人艇跟踪期望路径、轨迹的任务以及以跟踪轨迹为例对比不同参数下深度强化学习算法的控制效果的实验,验证了算法的有效性。 |
作者: | 孙邱越 |
专业: | 电气工程 |
导师: | 彭周华;王丹 |
授予学位: | 硕士 |
授予学位单位: | 大连海事大学 |
学位年度: | 2021 |