论文题名: | 基于深度强化学习的内河水网动态航线规划 |
关键词: | 内河水网;动态航线规划;深度强化学习;图神经网络 |
摘要: | 内河水网航线规划对于实现船舶智能航行具有重要的意义。然而,目前多数方法仍属于静态规划算法,少有将实时船舶交通流作为影响因素的动态航线规划算法。本文利用近年来取得巨大成功的深度强化学习和图神经网络方法,针对内河水网复杂多变的航行环境,对内河水网的实时动态航线规划展开研究。 论文完成的主要工作如下: (1)基于DQN(DeepQ_Network)的内河水网动态航线规划算法。在前人对DQN状态空间设置进行的研究基础上,本文提出一种内河水网动态状态空间生成方法。首先根据内河水网节点的经纬度将内河水网映射成矩阵数据;其次,由于基于路径节点经纬度映射形成的矩阵数据存在着冗余的用于存储连接关系的间隔节点,因此利用间隔去重的方法,大幅度减小状态空间,提高算法实际应用中的运行速度;最后,将船舶在内河水网中的位置和船舶的目的地以及内河水网内的航道交通流密度信息反映到矩阵数据中,形成动态状态空间作为算法模型的输入。此外,本文根据水网特点,进行了针对性的动作空间设置、航道连通性与方向检测和稀疏奖励问题的研究,解决了DQN难以训练的问题,使得基于DQN的动态航线规划模型能够在变化的环境中快速找到最优航线。与A*等传统路径规划方法的对比实验结果表明,所提方法能够考虑实时航道交通流,在更短的时间内找到一条可以使船舶更快到达目的地的航线,实现内河水网实时的动态航线规划。 (2)基于DQN和图神经网络结合的内河水网动态航线规划算法。针对基于DQN的动态航线规划算法在实际应用中步骤较为繁琐的问题,进一步研究了其与图神经网络相结合的方法。内河水网是典型的图结构数据,由于不满足卷积神经网络中的平移不变性,所以不能直接作为DQN的输入送到网络中进行卷积计算。为了解决这一问题,本文提出了利用STGCN图神经网络中骨干网络替换DQN中卷积层的GDQN算法,让智能体根据STGCN提取的动态空间特征进行决策,从而实现动态航线规划。实验结果表明,本文基于GDQN的动态航线规划算法由于具有较大的动作空间,且模型相对于DQN模型较为复杂,所以算法的时间代价相对于基于DQN的动态航线规划算法有所增加,但其实现了端到端的训练和推理,也具有更大的改进空间。 |
作者: | 代严学 |
专业: | 交通信息工程及控制 |
导师: | 潘明阳 |
授予学位: | 硕士 |
授予学位单位: | 大连海事大学 |
学位年度: | 2022 |