详情

原文传递基于深度强化学习的船舶智能避碰方法研究

论文题名：	基于深度强化学习的船舶智能避碰方法研究
关键词：	船舶航行;智能避碰;深度强化学习;深度Q网络
摘要：	近年来，人工智能的迅速发展，极大改变了人们的生活和工作方式。车、船等载运工具的智能化自主操控，也受到越来越多的关注。区别于其他载运工具，船舶航行条件多变、规则约束复杂、水上航行惯性大操控困难，要实现船舶智能航行难度更大。当前，船舶的操控过程高度依赖驾驶员，是基于环境感知、路径规划、避碰、鲁棒控制等多因素的综合意识行为。这一过程的机器复现，是人工智能、智能航行领域的研究热点问题。其中，船舶避碰是其中的基础核心难题，需要综合考虑外部环境、内在约束、经验积累等多个因素，是一个复杂的拟人意识决策问题。传统的避碰方法在各种航行场景下，都存在一定局限性，亟待寻求新的解决方案。深度强化学习方法，通过智能体与环境的互动逐渐生成智能，是模拟人的环境适应能力的有效途径。因此，论文以深度强化学习方法为基础框架，针对船舶航行智能避碰核心问题开展研究，为驾驶意识的仿生建模开拓新的途径，具有重要理论和实际意义。论文主要成果如下：　　（1）提出了基于人工势场（Artificial Potential Field，APF）的航路优选方法。航路优选指的是长距离尺度上，综合考虑航行安全、航行经济性、航行规则等因素，选取一条相对合理的习惯航路，该过程是船舶避碰的重要前期准备工作。分析了船舶习惯航路的形成原因，并使用APF模型描述。借助船舶的历史AIS轨迹记录，基于非线性优化方法学习APF模型参数，建立起习惯航路的选取方法。在此基础上，通过烟大航线渡轮验证了上述方法。　　（2）提出了基于时间规整算法（Dynamic Time Warping，DTW）的强化学习静态避碰方法。在选定航路的基础上，充分考虑静态障碍物、禁航区、路程远近、操纵性约束等因素。本文采用Q-Learning算法与非监督学习方法，建立了船舶静态避碰智能。接着，根据DTW算法提出改进型的Q-Learning方法，模拟人对多因素的平衡关系。最后，将提出的方法与A*和快速遍历随机树（Rapidly-exploring Random Tree，RRT）、经典Q-Learning等方法进行对比，通过多种场景验证了所提出方法的有效性。　　（3）提出了基于APF的单智能体深度强化学习动态避碰方法。船舶的实际航行过程中，会遇船舶等动态障碍物是其最主要的威胁。针对这一问题，首先提出一种面向离散动作空间的Dueling DQN的动态避碰方法。智能体通过卷积神经网络提取航行场景图像的高维度特征，通过反复训练，建立特征与操舵动作之间的深度神经网络连接关系，获得动态避碰智能。随后，引入Deep Deterministic Policy Gradient（DDPG）模型，解决了连续动作空间下的动态避碰问题。上述方法在仿真测试中表现良好，具有较高的实用价值。　　（4）提出了基于Multiagent的深度强化学习协同避碰意识建模方法。面向　　实际航行中的多船会遇问题，研究以基于深度强化学习的多智能体方法为基础，分析了在学习框架下，如何实现多智能船的完全协作、完全竞争、部分协作部分竞争问题，构建了多船多智能体协同避碰决策系统，进一步完善自主避碰方法。最后，模拟了多种典型会遇场景，通过仿真实验验证多船协同避碰智能方法的有效性。　　本文的相关研究成果，部分已成功应用于南京板桥汽渡安全辅助驾驶系统的避碰辅助决策功能模块之中，取得了良好的效果。
作者：	陈晨
专业：	计算机科学与技术
导师：	陈先桥
授予学位：	博士
授予学位单位：	武汉理工大学
学位年度：	2020