详情

当前位置：首页> 学位论文 >详情

原文传递基于强化学习的牵引车路径规划研究

论文题名：	基于强化学习的牵引车路径规划研究
关键词：	牵引汽车;行驶控制;汽车设计;计算机技术
摘要：	牵引车作为一种常用的牵引运输设备，在各行各业中得到了广泛应用。当牵引车在码头、仓库、军用舰艇等处工作时，工作环境复杂拥挤，不确定因素较多，牵引车的行驶容易引发安全事故。在航母甲板上需要进行飞机的牵引、起飞和降落以及弹药的保障等一系列作业任务，使牵引车的行驶安全、工作效率以及操作难度成为难题。因而将无人驾驶技术应用于牵引车是未来的发展趋势，而路径规划是该技术的核心。因此，对甲板上牵引车路径规划的研究具有重大意义。　　本文以航母甲板上的牵引车为研究对象，在分析了牵引车路径规划常用方法的基础上，选用强化学习中具有较强自学习能力和较高鲁棒性的Q学习算法对牵引车进行路径规划研究。针对Q学习算法在牵引车路径规划中存在的三大难题，提出了相应的解决方案，使牵引车能够在未知复杂环境下快速找到无碰撞的最优路径。对于因Lookup表格存储Q值函数所带来的“维数灾难”问题，分别利用BP神经网络的非线性值函数逼近方法和模糊推理的较强泛化能力对Q学习算法进行离散化，提出了BP神经网络和模糊推理与Q学习相结合的路径规划算法。其中，基于BP-Q学习的路径规划算法可以很好地解决连续状态和动作空间的泛化问题，使动静态环境下的牵引车都能寻找到一条较优的路径。而基于模糊-Q学习的路径规划算法在实现BP-Q学习算法功能的基础上，还可以解决复杂环境下的局部极小值问题。此外，模糊推理规则库还可以为牵引车提供先验知识，从而提高学习速度。针对Q学习算法中动作选择时易产生的探索与利用的平衡问题，采用了Boltzmann分布策略，实现了“前期重探索”、“后期重利用”的动作选择功能。针对奖赏函数设计问题，提出了一种基于行为分解的方法来减小其对学习收敛速度的影响。该方法将路径规划行为分为避碰行为和趋向目标行为，并利用权值系数控制两种行为的比重，从而合理地设计奖赏函数来提高收敛速度。最后通过不同环境下的仿真实验证明了算法的正确性和有效性。
作者：	李丽
专业：	机械工程
导师：	王能建
授予学位：	硕士
授予学位单位：	哈尔滨工程大学
学位年度：	2014
正文语种：	中文

相关文献

检索历史

应用推荐