论文题名: | 基于深度强化学习的视觉水下航行器自主导航算法研究 |
关键词: | 水下航行器;自主导航;机器视觉;深度强化学习 |
摘要: | 随着人类愈发重视开发并利用海洋资源,视觉水下航行器作为一种配备自主控制器和视觉感知传感器的自供能、自推进智能装备,已广泛应用于海底资源勘探、搜救等领域。对于特定水下作业任务,视觉水下航行器需根据外界环境和自身状态进行自主导航。传统的导航方法从模型信息中搜索可用的路径并开发对应控制器进行导航,对未知作业环境的自适应能力较弱。本文以视觉水下航行器为研究对象,以视觉感知下的目标点导航和目标物导航为目标,利用深度学习提取环境特征,通过强化学习对环境特征与自身状态进行行为指令解码,使得水下航行器具备图像深度感知和动态决策的能力,进而满足无先验环境知识条件下的视觉水下航行器自主导航需求,主要研究工作如下: 首先,针对目标点导航过程中视觉深度感知与动态行为决策的问题,分别设计了具备图像特征提取能力的感知融合网络和自主行为控制能力的动态决策网络,在深度强化学习框架下,通过引入深度网络实现图像特征的深度预测,改进不同约束条件的奖励函数实现了安全距离航行和经济速度优化,利用视觉图像和自身状态信息作为输入,并以连续的控制动作作为输出,解决了视觉水下航行器目标点导航的自主感知决策问题。其次,针对区域内目标物导航过程中目标物识别与随机探索的问题,设计了具有环境感知识别能力的感知识别网络与区域搜寻能力和随机探索网络,在深度确定性策略梯度的基础上,结合目标物显著性识别技术实现了目标物的准确识别,以视觉图像作为输入,并以连续的探索动作为输出,实时判断是否识别出目标物,直至发现目标物完成探索,解决了视觉水下航行器目标点导航的识别探索问题。最后,针对感知和决策网络的单独设计可能会引入不匹配信号的问题,采用端对端的训练方法,有效地抑制甚至消除了步骤/模块之间的不一致性和不匹配的问题。 本文从自主导航过程中目标点导航与目标物导航两方面展开研究,将预训练好的网络在未知环境下进行目标点导航与目标物导航的分别测试和联合仿真测试,实验结果表明提出的感知决策控制网络能够实现视觉水下航行器的自主导航,在未知环境下同样具有的良好通用性和鲁棒性,为视觉水下航行器的自主导航提供了一种新思路。 |
作者: | 姜涛 |
专业: | 船舶与海洋工程 |
导师: | 刘彦呈 |
授予学位: | 硕士 |
授予学位单位: | 大连海事大学 |
学位年度: | 2022 |