当前位置: 首页> 学位论文 >详情
原文传递 基于深度强化学习的车辆车道保持算法研究
论文题名: 基于深度强化学习的车辆车道保持算法研究
关键词: 自动驾驶;深度强化学习;车道保持;图像处理
摘要: 车道保持是实现车辆自动驾驶的一个重要环节,深度强化学习算法是一种成熟的机器自学习算法,本文对基于深度强化学习的车辆车道保持算法展开了研究。针对实际任务过程中任务空间的无限性和动作空间的连续性,选取DDPG算法作为车道保持自学习过程中的核心算法,并在该算法的基础上做了防过拟合改进。随后对基于多架构融合的车道自保持系统进行的设计与实现进行研究,包括图像处理研究,经验回放研究与探索研究,稀疏奖励研究等。
  (1)在图像处理研究方面,为了降低智能体自学习难度,借用了在深度学习中常用的图像处理算法,如Auto-Encode算法、迁移学习,以及在图像分类、目标识别任务中发挥出色的Resnet网络和Densenet网络。并使之处于智能体中相关神经网络的浅层中,从而有效提高了智能体学习的速度。
  (2)在经验回放研究方面,采用了随机经验回放和优先经验回放两种方法。当使用迁移学习的方法时,由于迁移网络的缓慢学习且受硬件的限制,则使用类似DQN的随机经验回放进行训练。当使用Auto-Encode方法时,则使用优先经验回放的方式。
  (3)在稀疏奖励研究方面,介绍了环境反馈奖励过程中可能存在的各种问题,针对任务中存在的稀疏奖励问题,提出了一组奖励的计算公式,同时为了提升智能体在自由探索中任务的成功概率,本文在智能体学习的过程中随机增加了几组成功的人为案例,以此来加速智能体的学习过程。
  (4)在智能体探索方面,针对智能体在学习的过程中使用最大化动作价值而导致陷入局部最优解的问题,同时针对传统贪婪方法在智能体长期学习过程表现差的问题,本文采取了??-greedy的探索策略。该探索策略能较好得使智能体在开发的过程中同时保持良好的探索性能。
  最后介绍了Carla无人驾驶仿真器,同时在该仿真环境中验证了本文的算法。实验证明,使用基于多架构融合的车道自保持系统的车辆智能体在经过约40万次训练后成功学习到车道保持的控制策略,即使用深度强化学习的思想来解决自动驾驶中的相关问题是可能的,且使用Auto-Encode方法与优先经验回放的方式时,神经网络的学习性能更好。
作者: 张奔
专业: 机械电子工程
导师: 苏岩
授予学位: 硕士
授予学位单位: 南京理工大学
学位年度: 2021
检索历史
应用推荐