当前位置: 首页> 学位论文 >详情
原文传递 基于深度强化学习的船舶避碰决策研究
论文题名: 基于深度强化学习的船舶避碰决策研究
关键词: 船舶避碰;路径规划;智能决策;深度强化学习;策略梯度算法
摘要: 随着人工智能、物联网、大数据等技术的迅速发展,船舶智能化已然成为造船业和航运业未来发展的必然趋势。而且随着海上交通活动的日益频繁,人为因素导致的船舶碰撞事故发生频率居高不下,严重威胁人命财产和水域环境安全。因此,提高船舶避碰决策的智能化水平,对于减少或避免船舶碰撞事故,提升水域环境安全性具有重要的现实意义。
  为满足智能航运和智能船舶自主航行的发展需求,实现船舶间的自主安全避碰,解决基于传统深度强化学习的船舶避碰决策方法泛化能力弱、与碰撞危险联系不紧密以及在复杂环境下鲁棒性差等问题,论文基于深度强化学习依次从船舶避碰理论、船舶碰撞风险量化以及船舶自主避碰三个方面展开研究,提出基于双延迟深度确定性策略梯度(TwinDelayedDeepDeterministicPolicyGradient,TD3)的船舶自主避碰方法,为船舶智能化及其自主航行提供理论和技术支持。论文主要研究内容如下:
  (1)基于强化学习的船舶避碰决策理论。通过分析传统船舶避让过程、会遇局面划分方式、避碰策略以及避让行动要求,总结船舶避碰基本原理,提出基于安全距离的船舶碰撞危险检测方法;分析强化学习与自主避碰的契合度以及最优避碰策略的求解过程,针对传统强化学习解决复杂船舶自主避碰决策问题存在困难的缺陷,运用深度神经网络技术,提出基于深度强化学习的船舶自主避碰算法框架。
  (2)基于四元船舶领域的碰撞危险度模型。针对现有碰撞风险量化方法存在的风险影响因素考虑不全面、不能准确反应船舶之间的危险程度并且不适用于船舶自主避碰场景等问题,依据四元船舶领域模型确定安全距离边界,利用碰撞危险检测圆与碰撞危险检测线识别碰撞危险,综合考虑影响船舶自主航行碰撞危险的相关因素构成风险评价指标,利用模糊理论,提出基于四元船舶领域的船舶碰撞危险度模糊评价模型,为船舶自主避碰模型提供基础支撑。
  (3)基于双延迟深度确定性策略梯度的船舶自主避碰决策方法。针对传统深度强化学习算法在船舶自主避碰应用中的不足,基于双延迟深度确定性策略梯度算法,从全局角度构建具有连续多时刻目标船信息的状态空间,增强模型的鲁棒性,依据船舶操纵性设计连续动作空间,结合碰撞危险度模型与《1972年国际海上避碰规则》(COLREGs)设计船舶避碰奖励函数;根据船舶避碰状态空间,利用Actor-Critic结构设计包含长短期记忆(LongShort-TermMemory,LSTM)网络单元的船舶自主避碰网络结构,利用双价值网络学习、目标策略平滑以及策略网络延迟更新等方式稳定网络训练,进一步增强模型的鲁棒性;为解决自主避碰模型泛化能力差的问题,提出船舶自主避碰算法随机场景训练流程,实现避碰模型应用的多场景迁移。
  (4)船舶自主避碰算法训练与仿真验证。利用构建的随机会遇场景以及训练参数对船舶自主避碰算法进行训练,得到自主避碰网络模型,分别在两船、多船会遇场景下进行仿真验证,并与现有典型船舶自主避碰方法进行对比,验证提出方法的有效性和可靠性。
  论文立足于智能航运和智能船舶自主航行的发展需求,基于深度强化学习理论,研究船舶自主避碰决策方法。论文研究包括船舶避碰原理、船舶碰撞风险量化和船舶自主避碰方法等关键内容,对于船舶智能化和自主航行具有重要的应用价值。
作者: 周壮壮
专业: 交通信息工程及控制
导师: 刘钊
授予学位: 硕士
授予学位单位: 武汉理工大学
学位年度: 2022
检索历史
应用推荐