详情

当前位置：首页> 学位论文 >详情

原文传递基于深度强化学习的无人艇避碰算法研究

论文题名：	基于深度强化学习的无人艇避碰算法研究
关键词：	无人水面艇;深度强化学习;自主避碰;路径规则
摘要：	无人水面艇（UnmannedSurfaceVehicle,USV）已经在军事、科考等众多领域得到了广泛的关注。因其具有灵活、快速的特点已经在非常多的研究中扮演起重要的角色。一套可靠的自主避碰系统无疑是无人水面艇安全航行的必要保障，在面对碰撞危险时及时、合理的避让动作很好地保障了人类的生命财产安全。无人艇自主避碰系统的运行需要稳定和可靠；规划出的轨迹需要平滑且安全；避让行为需要符合规则与操纵性，这样的自主避碰系统才会具有更广阔的工程应用前景，具有更高的实用价值。　　深度强化学习算法作为人工智能领域的一颗耀眼的明珠，受到了广泛而密切的关注。它结合了强化学习方法和深度学习方法而具有非常优秀的感知和决策能力，可以说是船舶避碰领域非常具有研究价值与前景的研究方向。本文结合人工智能深度强化学习方法，考虑了国际海上避碰规则与操纵性，在全局静态路径规划和局部动态避碰决策两个主要方面进行了无人艇自主避碰算法详细的研究、设计与验证。　　本文的研究主要是针对以下几个方面进行的：　　第一部分是静态栅格环境下的全局路径规划算法的设计。针对大范围海域下状态空间庞大导致训练非常困难的问题，采用分层的思想，将环境分割为不同精度的栅格化仿真环境，在更高层容易训练的环境中得到高奖励路径并用于指导低层复杂环境的训练。最后在大范围的栅格海域环境下进行了全局静态路径规划算法有效性的验证。　　第二部分是局部动态环境下避碰算法的设计。针对海上局部动态实时避碰问题，在算法上，结合深度强化学习D3QN算法，通过双学习方法减小过估计的发生，采用决斗网络结构提升训练效率。针对传统的基于计数好奇心的强化学习优化探索方法在状态庞大的环境下难以使用的问题，结合无人艇避碰特点，提出基于类计数好奇心的优化探索方法，与改进前的算法进行对比验证了改进的有效性。在训练环境上，算法考虑了无人艇的操纵特性和国际海上避碰规则，具有一定的实际意义。　　第三部分在更为复杂的环境中进行了避碰算法的设计。本章加入了噪声网络来驱动智能体探索，引入了优先经验回放机制优化了采样模式，同时采用了状态剪裁等众多优化手段有效地提升了训练效果。在模型上额外考虑了舵机特性对无人艇运动的影响，在具有一定的随机性的环境和具有一定的复杂度的两种环境下分别进行了避碰算法的测试与对比，证明了改进的算法具有更加显著的避碰效果。最后基于本文的层层递进式的研究框架，描绘了无人艇自主避碰算法的总框架，并探讨了工程化的结构与可能性。
作者：	孙喆
专业：	控制科学与工程
导师：	王国峰
授予学位：	硕士
授予学位单位：	大连海事大学
学位年度：	2022

相关文献

检索历史

应用推荐