当前位置: 首页> 学位论文 >详情
原文传递 融合规则和操纵性的并行强化学习的船舶避碰研究
论文题名: 融合规则和操纵性的并行强化学习的船舶避碰研究
关键词: 船舶避碰;强化学习;路径平滑度;轨迹规划;遗传算法
摘要: 随着航运业的快速发展,海上出现的船舶会越来越多,间接提升了海上事故发生率,因此船舶的航行安全受到更多的关注。当前一般智能算法(如遗传算法)应用于复杂环境中的动态避碰时表现不佳,如出现较多的转向次数或某些转角幅度较大,且较少同时考虑国际海上避碰规则和船舶操纵性的限制,使得规划的路径不满足实际航行轨迹的要求。本文以港口等交通繁忙水域的多船会遇场景为研究背景,选用在复杂环境中表现良好的强化学习算法,在算法中引入并行思想提高收敛性,且将国际海上避碰规则和船舶操纵性融入到强化学习算法中用于训练。该算法主要解决了复杂环境下动态避碰效果不佳,训练阶段算法收敛速度慢,规划路径与国际海上避碰规则和操纵性不符等问题。
  本文的主要研究内容如下:
  首先,对船舶避碰涉及到的基本理论知识进行了介绍。以船舶参考坐标系为基础,对船舶的相对运动参数进行求解、船舶领域知识和碰撞危险度进行了研究;对船舶常用的两种船舶数学模型进行了比较分析;对船舶会遇局面进行了详细的划分以及对避碰过程进行了解读;还对强化学习算法和遗传算法进行了对比,确定了强化学习算法为本文的研究方法。
  其次,为了证明选用的强化学习算法可以解决一般智能算法在复杂环境中进行多船避碰时表现不佳的问题,本文选用遗传算法作为比较对象,并用碰撞危险度和路径平滑度两个评价指标进行对比分析。既然本文选用的算法为强化学习,那么首先需要解决当应用强化学习解决全局路径规划时存在的算法收敛速度慢,转向角度大等问题,本文对传统强化学习算法进行了改进,引入了并行思想,通过改变算法结构,提出了一种多智能体并行Q学习算法,并在得到初始路径后对路径进行优化处理,使得规划路径满足船舶操纵性的要求;然后在动态避碰时,由于在复杂环境中Q表的维度限制问题,只用强化学习算法达不到要求,故在此结合了深度学习。但由于应用传统深度强化学习算法进行船舶动态避碰研究时会出现收敛速度慢的问题,故本文通过对两种架构不同的深度强化学习算法在倒立摆模型上的比较,选用具有并行架构的异步优势动作评价算法,并且为了使该算法规划的路径满足船舶航行轨迹的要求,在算法中加入了国际海上避碰规则和操纵性的限制。
  最后,在完成融入规则和操纵性限制的异步优势动作评价算法的船舶运动模型的训练后,对复杂水域下的三船会遇和四船会遇场景进行了仿真,证明利用该算法在复杂环境下规划的路径具有安全、转向幅度更小、规划得到的路径更符合船舶的实际航行轨迹等优点。且利用该模型在三种常见的会遇场景下进行了不同尺寸船舶的避碰仿真,证明本文模型的有效性。
作者: 舒祥
专业: 控制科学与工程
导师: 颜德文
授予学位: 硕士
授予学位单位: 大连海事大学
学位年度: 2022
检索历史
应用推荐