详情

原文传递基于深度强化学习的自动驾驶决策策略研究

论文题名：	基于深度强化学习的自动驾驶决策策略研究
关键词：	自动驾驶;深度强化学习;路径速度解耦;长短期记忆网络
摘要：	快速发展的自动驾驶技术为减少安全事故、缓解交通拥堵等问题带来了新途径，行为决策子系统是自动驾驶系统的重要组成模块，能够具有驾驶员一样的决策能力是汽车高阶智能化的重要体现。已经落地的基于规则的决策方案受到设计人员先验知识的局限，难以覆盖复杂多变的交通场景。目前深度强化学习越来越多地应用到自动驾驶领域，为决策系统的设计提供了新的思路。本文结合强化学习能在环境中交互迭代最优策略的优势和深度神经网络的巨大表征能力，对其在决策系统的应用主要进行了以下研究。　　针对目前深度强化学习在自动驾驶领域的研究，本文基于模块化自动驾驶方案，采用了具有收敛迅速、鲁棒等优点的软演员-评论家（SoftActor-Critic，SAC）强化学习算法框架设计行为决策系统。相比目前很多的“端到端”研究方案，模块化系统更加容易维护和调试，而模型的决策策略，仍然经过规划后再执行，确保动作的合理性和可执行性。　　仿真环境是深度强化学习策略迭代的基础，通过确定软件架构，编写上下游模块算法，搭建了仿真环境，实现决策智能体在环境中交互与提升。本文以PreScan软件构建交通场景，使用CarSim车辆模型，利用Matlab/Simulink完成总体交互仿真环境的搭建，使用交通流插件设置智能交通流保证训练回合中环境的差异性。结合软件接口并编写算法建立了自动驾驶决策上下游包括感知和规划控制模块。实现决策智能体与规划模块的对接、使决策结果得到有效执行是本文的难点，为实现这一目标，决策和规划模块采用路径速度解耦的形式，基于Frenet坐标系构建了路径决策-路径规划-速度决策-速度规划的方案，并对决策策略进行处理，保证其经过规划后可以得到可执行轨迹。　　建立SAC车辆决策智能体，通过仿真试验验证其合理性，并引入长短期记忆神经网络（LongShort-termMemory，LSTM）探究其对决策效果的影响。本文将本车和周围车道车辆在Frenet坐标系下的运动信息作为状态空间，车道推荐值和车道内的横向偏移及速度作为动作空间，并利用多项式构建路径和速度曲线，根据以上结果构建规划要求的凸空间。在奖励函数的设计中充分考虑安全性、效率和舒适性，将跟车距离、横纵向加速度变化率等作为奖励函数的参数。为了提高决策智能体决策结果的合理性，本文将决策和规划结果的路径及速度差距引入至奖励函数中，反馈至策略提升的过程，以降低规划难度。为比较不同模型的策略差异，设计仿真试验，以智能驾驶员跟驰模型（IntelligentDriverModel，IDM）和基于Gipps安全距离的换道模型为基线模型，通过具体场景下指标对比和混合场景下的规模仿真测试统计数据分析策略差异，发现本文研究的车辆决策智能体在策略的安全性和效率上的优势，其中，车道内横向决策增加了处理障碍物场景时的灵活性，但也因为自身算法的局限性，其在连续性和舒适性上表出现不足。比较引入LSTM的SAC车辆决策智能体在同样场景下的策略表现，并发现其相较于SAC车辆决策智能体在安全性和舒适性层面上得到一定程度的提高。
作者：	程学涛
专业：	车辆工程
导师：	丁海涛
授予学位：	硕士
授予学位单位：	吉林大学
学位年度：	2023