当前位置: 首页> 学位论文 >详情
原文传递 基于深度确定性策略梯度算法的自动驾驶车道保持研究
论文题名: 基于深度确定性策略梯度算法的自动驾驶车道保持研究
关键词: 无人驾驶;车道规划;深度确定性策略梯度;强化学习
摘要: 随着个人拥有车辆的增多,伴随着交通负担的加重,自动驾驶技术应运而生,其出现理论上可以避免人由于疲劳、酒驾等人为原因造成的严重后果。尽管自动驾驶经过多年发展,由于一直使用传统控制,导致关键技术在现阶段存在不足,仍然不能达到完全商用的场合。人工智能在很多场合得到了广泛的应用,国内外高校、企业在自动驾驶领域进行了深入的研究,取得了重大的进步,同样存在一些问题。
  传统的模型预测控制有其天然的模型约束处理优势,能够与规划控制、感知过程的传感器数据预处理算法很好地结合,是在无人驾驶车辆控制过程中体现车辆动力学与运动学约束的理想方法;但是模型预测控制算法较为复杂,计算方法复杂,需要建立复杂的非线性控制模型,如果控制模型更加复杂,算法几何级增长。
  针对以上问题,本文使用强化学习领域近些年来提出的理论,提出一种整体系统设计方案。研究基于DavidSilver等在2016年的国际学习表征会议(ICLR)提出的深度确定性策略梯度(即DeepDeterministicPolicyGradient,下文称DDPG)算法理论,以仿真平台为研究对象构造端对端的自动驾驶行为决策系统。由于自动驾驶存在一定危险性和不确定性,实验过程在仿真环境Carla中进行,无人车作为强化学习的智能体(agent)和环境交互产生经验数据,供给深度网络进行训练。训练的数据来自于仿真环境的图像,车道线识别与车道保持来自于处理后的语义分割图形,网络通过仿真环境将控制信号发送给无人车。实验的结果通过强化学习通用的回报函数的平均值进行量化表达。本文的相关工作如下:
  (1)对原有的无人车实现方案进行综述,发现传统的状态机、端对端神经网络等模型具有维数灾难、对复杂环境无法判断等问题,由此引出本文的强化学习实现方法。然后介绍强化学习的基本理论,对经典的强化学习方法进行综述,根据现有的问题,最终选择深度确定性策略梯度即DDPG算法,然后介绍仿真平台,在仿真平台进行初步实验,仿真平台提供各种数据,其中语义分割图形是车道线保持的重要数据输入来源。
  (2)针对无人车原地不动或者移动缓慢,提出改造神经网络激活函数方法和增加隐藏层数量,经过实验发现无明显效果。针对该问题,提出对原始DDPG算法加入噪声,并对两种噪声进行对比探究,最终确定使用OU噪声,然后加入正则化等改进,进行了仿真实验,实验结果证明改进后的算法能够满足在第一个环境中的车道保持,但是对于陌生环境无法适应。
  (3)针对无人车在转弯冲出路线,减速不明显问题,提出改造回报函数的方法,利用动力学特点,合理限制其转弯速度,由于回报函数是强化学习的最终学习方向,所以对转弯超速行为进行惩罚,经过仿真发现解决了该问题。针对训练缓慢,提出载入模仿学习模型,加速了模型的收敛效率,但是对于最终效果无明显改善效果。
  (4)为进一步提高系统性能,借鉴他人提出的经验缓存池分割方案,按照不同的标准对经验缓冲池进行分割,并且在训练时,分别采样成功和失败的样本,对进一步加速模型的收敛起到了积极的作用,经过仿真实验表明,该方法优于优先经验采样。
  综上所述,本文提出的改造后的DDPG算法改进能够满足车道线保持的要求,对该算法的其他改善能够进一步提升其性能,但是该模型无法在陌生环境中得到很好的应用而且对于强化学习,回报函数的定义没有统一的标准,未来的工作需要利用逆强化学习等方法进行深入研究。
作者: 潘广强
专业: 控制工程
导师: 薛定宇
授予学位: 硕士
授予学位单位: 东北大学
学位年度: 2020
检索历史
应用推荐