详情

原文传递基于深度强化学习的AUV动态避障方法研究

论文题名：	基于深度强化学习的AUV动态避障方法研究
关键词：	水下自主航行器;动态避障;深度强化学习;自主决策;多约束条件
摘要：	避障规划技术是水下自主航行器（AutonomousUnderwaterVehicle，AUV）领域的重要技术之一，贯穿了AUV水下航行的始终。本文重点研究复杂动态环境下的避障方法，以某巡检AUV为研究对象，针对该型AUV在动态未知水下环境执行固定水深梳状搜索巡检任务以及AUV自主回收过程，整个工程应用过程中AUV遭遇的动态避障问题为典型科研问题背景，结合人工智能技术，将深度强化学习应用到AUV避障方法中，以提升动态环境下AUV的避障决策能力，保障AUV执行使命任务过程中的安全。主要研究以下几点内容:首先，本文提出了基于深度强化学习方法(DeepReinforcementLearning，DRL)的AUV端到端避障框架结构，将水下自主航行器数学建模、传感器系统、避障方法、深度强化学习系统、动作执行控制系统等有机的结合起来，该框架将用于指导后续具体工程任务场景的动态避障方法设计。　　其次，本文提出在传感器探测数据与避障规划之间，添加AUV避障感知端，考虑AUV传感器水下观测结果的量测误差，使用交互多模型-扩展卡尔曼滤波状态预测估计算法（InteractingMultipleModel-ExtendedKalmanFilter，IMM-EKF），进行去噪声处理，并对探测到的障碍物运动状态的进行估计和预测，提高了避障方法的可靠性。试验表明采用IMM-EKF障碍物状态预测估计算法相比于改进前的扩展卡尔曼滤波预测算法ExtendedKalmanFilter，EKF)，能有效适应障碍物的运动变化过程，大大提高了机动障碍物的运动状态预测准确性，满足了避障行为对预测精度的要求，可为AUV在面对定深梳状巡检任务、自主回收过程中的动态避障方法的设计，提供较为精确的障碍物感知输入。　　再次，针对本文巡检AUV载体，在动态未知水下环境执行固定水深梳状搜索巡检任务中，为解决此类场景复杂、多任务、多约束条件下水平面避障规划问题，本文结合深度神经网络(DeepQNetwork，DQN)算法，提出基于多行为网络调用的AUV任务自主决策的方法，并在基于DRL的端到端避障框架下，提出了基于深度确定性策略梯度（DeepDeterministicPolicyGradient，DDPG）算法的自适应比例积分微分控制(ProportionalIntegralDerivative，PID)算法（命名为:DDPG-PID控制算法）的AUV二维动态避障决策方法。最后开展的了一系列相关仿真试验验证了本文方法的有效性，最终单步避障决策时间小于0.5秒，提高了AUV巡检作业时的安全性。　　最后，针对巡检AUV三维未知水域自主回收过程中，传统避障方法难以处理三维空间栅格维数爆炸问题与庞大的环境感知信息数据量，本文基于DRL的端到端避障框架结构，对水平面自主避障决策过程方法改进，提出了基于深度强化学习的三维空间避障行为学习训练系统，系统核心为基于二叉树-深度确定性策略梯度（SumTree-DeepDeterministicPolicyGradient，SumTree-DDPG）算法的三维自主避障决策方法，该方法在避障行为训练学习过程相比于深度确定性策略梯度(DeepDeterministicPolicyGradient,DDPG)算法效果突出，能得到有效的避障策略。仿真试验结果表明，与改进前的DDPG算法和传统的人工势场法相比，其中基于SumTree-DDPG算法的三维自主避障决策方法在不同的障碍物的复杂场景以及海流干扰下，均可有效指导AUV动态规避障碍物，能保障AUV自主回收过程的安全，并通过指标验证，在工程应用中具有很高的可行性与应用价值。
作者：	罗孝坤
专业：	船舶与海洋结构物设计制造
导师：	孙玉山
授予学位：	硕士
授予学位单位：	哈尔滨工程大学
学位年度：	2022