论文题名: | 基于深度强化学习的无人车路径规划研究 |
关键词: | 无人车;路径规划;深度强化学习;环境适应性 |
摘要: | 路径规划是无人车实现自主化和智能化的关键技术之一,由于实际环境的多样化,就需要路径规划算法具有较高的适应性。因此,本文采用对环境有较高适应性的深度强化学习算法(DeepReinforcementLearning,DRL)进行无人车路径规划研究。首先基于DQN(DeepQ-LearningNetwork,DQN)算法实现静态环境的路径规划;其次通过A3C(Asynchronousadvantageactor-critic,A3C)算法实现动态环境的路径规划;最终将前两种算法框架相结合,基于DDPG(DeepDeterministicPolicyGradient,DDPG)算法实现在复杂连续环境中的实验研究。本文的主要研究内容如下: (1)基于DQN算法的静态路径规划研究 针对经典的DQN算法在实现无人车路径规划中会出现探索能力差、训练时间过长的问题,首先通过简化状态空间和设计算法的奖励函数,提高神经网络的训练效率和算法的探索能力;其次通过建立不同尺寸的栅格地图进行仿真实验。仿真实验结果表明,改进后的算法不仅在小型地图上有较好的表现,同时当环境状态量较大时,也有较高的训练效率和鲁棒性。 (2)基于A3C算法的动态路径规划研究 针对动态环境下无人车的动态避障问题,本章基于Actor-Critic算法框架,采用A3C算法进行动态环境的路径规划研究。为更好的处理动态问题,以RNN(RerrentNeuralNetwork,RNN)循环神经网络与全连接层相结合的方式搭建神经网络模型,并使用多线程的方式进行模型的训练,最终通过搭建动态栅格环境来进行仿真实验,实验结果表明,该方法可以进行有效避障,得到一条无碰撞路径。 (3)基于复杂连续空间内的路径规划研究 针对无人车在复杂连续环境中,DDPG算法收敛速度慢、训练效率低的问题。本章通过设计奖励函数,调整算法的探索策略来提高算法模型的探索效率。同时为了更贴近实际情况,本章的仿真环境为TORCS模拟器,在模拟器上的仿真结果表明,算法模型可以快速收敛,完成无人车的路径规划,最终进行实车实验来验证算法的鲁棒性。 |
作者: | 朱坚 |
专业: | 控制理论与控制工程 |
导师: | 宋晓茹 |
授予学位: | 硕士 |
授予学位单位: | 西安工业大学 |
学位年度: | 2021 |