论文题名: | 基于深度迁移强化学习的船舶自主避碰决策 |
关键词: | 无人驾驶船舶;强化学习;迁移强化学习;船舶自主避碰 |
摘要: | 在航运业,无人驾驶船舶的避碰算法研究是一项极具挑战性的任务。为了探索兼具高效性和实用性的船舶避碰方法,针对不确定环境下的船舶避碰问题,提出了一种基于深度迁移强化学习的船舶自主避碰决策算法。首先,结合有人驾驶船舶的避碰行为特征和《国际海上避碰规则》对船舶会遇场景进行划分,设计船舶避碰危险度和规则协同约束的奖励函数,构建基于深度强化学习的船舶自主避碰决策模型;构建船舶避碰任务集,提出不同场景下避碰任务特征之间相似度和复杂度度量模型以实现源任务选取,通过对源任务特征函数的提取实现源任务到目标任务的知识迁移,加快了算法迭代速度,并通过遗忘策略实现了源任务经验和学习获取的经验的平衡,在保证避碰安全性的基础上优化决策的实时性;最后,基于OpenAIGym平台设计了多个场景下的船舶避碰任务,从船舶避碰行为的安全性和合规性进行了对比分析,并对使用迁移学习前后的算法迭代曲线进行对比分析。本文的主要创新成果如下: (1)构建了一种规则约束下基于深度强化学习的船舶自主避碰决策模型。结合船舶航行状态信息合理设置船舶状态空间,离散化船舶运动空间,综合考虑DCPA、TCPA、方位、距离、船速比等因素解算船舶碰撞危险度,结合规则和良好船艺要求,明确优先避碰船舶及所采取的避碰行为,将其融入对动态障碍避碰的奖励函数中,确保了船舶避让时机的准确性及避让行动有效性,实现了规则约束下的船舶自主避碰决策。 (2)提出了一种船舶避碰任务相似度和复杂度度量模型。结合规则中对船舶会遇场景的划分以及船舶避碰行动推荐,将存在碰撞危险的船舶数量、方位、速度及会遇局面等要素作为输入,量化了各个船舶避碰任务之间的相似度和复杂度,实现了源任务的选择并定义了近似状态空间,为后续知识迁移提供理论基础。 (3)提出了一种引入知识迁移改进深度强化学习的船舶自主避碰决策模型。通过对源任务的选择和特征函数的提取进行知识的获取,研究基于迁移强化学习的知识迁移方法,利用已有经验代替随机搜索策略进行动作选择,加速了目标任务中船舶智能体的训练,实现了高效的船舶自主避碰决策。 |
作者: | 王雷豪 |
专业: | 交通运输工程 |
导师: | 张新宇 |
授予学位: | 硕士 |
授予学位单位: | 大连海事大学 |
学位年度: | 2022 |