论文题名: | 基于深度强化学习的自动变道决策与控制 |
关键词: | 自动驾驶;自动变道;深度学习;智能体 |
摘要: | 为解决交通拥堵和道路安全问题,汽车采用先进的自动驾驶技术取代人类驾驶员进行决策与控制。由于基于规则的传统自动变道模型对真实场景的预测结果与实际结果存在一定的偏差,且模型需要根据不同道路场景进行建模,本文选择基于学习的人工智能算法实现自动变道。由于深度学习的训练需要大量带标签的数据,而深度强化学习算法可以通过与环境的交互进行训练,更加适合自动变道决策与控制问题,因此本文将自动变道问题分化为变道决策层与变道执行层,采用不同深度强化学习算法对两层策略进行学习,同时解决了单层深度强化学习由于参数增长训练难的问题。最终本文提出了一种多驾驶行为的自动变道决策与控制方案,该方案可以在动态交通环境下安全且舒适的实现自动变道决策与控制。主要研究内容包括: 首先,为生成深度强化学习算法训练场景,在CarSim中搭建直线两车道四车的自动变道场景和建立智能驾驶员模型控制周围车辆进行跟随驾驶。之后建立车辆的逆纵向动力学模型和驱动/制动系统之间的切换模型来将执行层输出的期望加速度转换为车辆控制信号,并通过Matlab/simulink与CarSim联合仿真证明其可用于后续研究。 其次,将自动变道决策行为分解为立即变道与不变道,对决策层的深度Q网络算法及其参数进行了详细的介绍。为得到性能良好的智能体,首先对算法进行有关输入状态空间、输出动作空间与奖惩函数的马尔可夫决策过程建模;然后参考策略任务目标,展开训练方案中算法训练参数、网络结构与动态仿真场景的设计;最后采用平均回合奖励作为指标对算法训练结果进行收敛性分析。 然后,根据不同变道意图将执行层策略分解为不变道的跟随、变道的间隙调整与变道横向控制。由于车辆控制信号为连续信号,采用双延迟策略梯度算法,并对算法和特有参数进行了详细的介绍。同时为了提高算法对样本的利用率,在算法采样环节中加入优先经验回放技术。最后参考变道决策策略的设计与训练,分别对执行层三种策略进行马尔可夫决策过程建模、训练方案设计以及算法训练结果收敛性分析。 最后,对自动变道策略的智能体进行性能验证。其验证顺序依照本文自动变道的结构层次,而具体验证方式是通过选取一到两种工况进行仿真验证。最终通过分析智能体在不同初始条件下完成策略任务能力与效果,证明每个智能体都能完成策略任务目标,以及分层深度强化学习算法训练出的智能体能实现自动变道决策与控制。 |
作者: | 汪洋 |
专业: | 工程(车辆工程) |
导师: | 欧健;蒋黎明 |
授予学位: | 硕士 |
授予学位单位: | 重庆理工大学 |
学位年度: | 2023 |