详情

原文传递面向船舶协同避碰的多智能体深度强化学习方法研究

论文题名：	面向船舶协同避碰的多智能体深度强化学习方法研究
关键词：	多智能体;深度强化学习;通信模型;协同决策;船舶避碰
摘要：	大数据、物联网、人工智能技术的成熟推动船舶朝着智能化、安全化、绿色化方向发展，而船舶避碰问题一直是船舶智能航行必须解决的首要问题。在实际航行中，多船会遇情况十分常见，此时船舶需要遵循国际海上避碰规则（InternationalRegulationsforPreventingCollisionsatSea，以下简称“COLREGS规则”），相互协作，共同合理规划避碰策略，才能应对复杂环境达到协同避碰的目标，降低碰撞风险。因此，研究满足COLREGS规则的船舶协同避碰策略，符合未来船舶航行智能化发展的需求，在理论研究和实际应用上都具有重要意义。　　利用深度强化学习的感知和试错能力学习避碰策略，在保证船舶避碰安全性的同时能够更加适应复杂的水域环境，在解决船舶避碰问题上具有显著优势。但目前基于深度强化学习的智能避碰研究中，大多忽略船舶避碰间的相互影响，存在避碰决策缺乏协同性等问题。因此，本文基于多智能体深度强化学习方法，以构建面向协同决策的多船舶智能体通信模型为核心，开展多船舶智能体协同避碰深度强化学习方法研究。主要工作及成果如下：　　（1）构建了面向船舶避碰的多智能体决策模型　　针对目前多数研究仅为本船规划避碰策略（周围船舶保持固定航向、航速行驶），可能无法处理因周围船舶的变化造成不确定性等问题，利用多智能体深度强化学习研究船舶避碰方法，保证多船共同规划避碰策略：设计船舶领域模型和船舶碰撞风险评估模型，降低碰撞风险；在融合多因素的船舶会遇局面辨识模型与量化的COLREGS规则基础上，设计多船避碰策略，保证其实用性；研究马尔可夫博弈过程与多船避碰过程的相似性，结合船舶航行和避碰特点，设计状态空间、连续动作空间以及奖励函数，构建多船舶智能体避碰决策模型，提出融合规则约束的多船舶智能体避碰决策算法；设计实验，验证了所提出的算法能够保证船舶避碰的安全性和实用性。　　（2）设计了面向协同决策的多船舶智能体通信模型　　针对目前多船舶智能体间缺乏通信以致避碰策略缺乏协同性问题，基于多智能体深度强化学习中的智能体通信方法，研究多船舶智能体合作方式，以促进船舶智能体协同决策：提出基于注意力推理的多船舶智能体通信数据提取方法，量化来自周围船舶智能体的通信数据对自身的重要性影响，提取有助于避碰决策的关键数据；设计记忆驱动的多船舶智能体经验学习方法，学习自身航行数据和来自周围船舶智能体的通信数据，积累经验，促进船舶智能体规划更好的避碰策略；在此基础上，结合所提出的多船舶智能体避碰决策模型，构建多船舶智能体通信模型，充分利用船舶智能体自身的航行数据和来自周围船舶智能体的通信数据，设计协同决策方法；通过对比与仿真实验，验证了所提出的通信模型有效保证了多船避碰的协同性。　　（3）提出了多船舶智能体协同避碰深度强化学习方法　　为进一步增强多船舶智能体间避碰的协同性和安全性，提出多船舶智能体协同避碰深度强化学习方法：设计基于噪音网络的船舶智能体协同避碰决策探索方法，提高找到最佳协同避碰策略的概率；设计基于多头注意力机制的船舶智能体评价网络，促使船舶智能体学习更有利于自己获取更大回报的信息，从而增强船舶智能体学习的协同性；基于多船舶智能体通信模型，结合以上研究构建多船舶智能体协同避碰决策模型，并引入COLREGS规则，提出多船舶智能体协同避碰深度强化学习算法；设计对比与仿真实验，结果表明所提出的方法进一步提高了多船会遇局面下船舶避碰的协同性和安全性，并保证了避碰策略的实用性。
作者：	隋丽蓉
专业：	计算机科学与技术
导师：	高曙
授予学位：	硕士
授予学位单位：	武汉理工大学
学位年度：	2022