详情

当前位置：首页> 学位论文 >详情

原文传递基于深度强化学习的车辆自主跟随决策研究

论文题名：	基于深度强化学习的车辆自主跟随决策研究
关键词：	自动驾驶车辆;自主跟随决策;深度强化学习;DDPG算法;变约束动作;多目标奖励函数
摘要：	随着城市化进程和车辆保有量的快速增长，跟车驾驶已成为日常驾驶中最常见的驾驶行为，而且跟车模型已广泛应用于微观交通仿真与驾驶辅助系统测试等领域。对于自动驾驶车辆来说安全、舒适的驾驶将提高乘员满意度和信任度，降低油耗为车主带来经济效益。本课题从深度强化学习算法与跟车行为特性两个层面研究，以达到车辆更安全、更舒适和更高效地自主跟随驾驶的目标。　　首先，基于自然驾驶数据，采用统计学理论进行跟车行为特性分析。以下一代模拟（Next Generation Simulation,NGSIM）数据集中I-80数据为研究对象，通过对称指数均值滤波方法对原始车辆轨迹数据进行数据重建，依据跟车准则提取了1341组跟车单元并建立了跟车数据集；基于统计学理论详细分析了跟车行驶过程各特征参数的频次分布，利用Spearman相关系数方法量化分析了各特征参数间相关性，并明确其显著性。　　其次，根据驾驶特性建立基于深度强化学习的自主跟随决策模型。基于马尔可夫决策过程（Markov Decision Process,MDP）的强化学习理论与车辆纵向运动学设计了状态空间、变约束动作空间、多目标奖励函数和终止条件，着重对动作的探索与利用以及多目标奖励函数进行分析。第一，利用训练集建立了速度-加速度分布并根据正态分布3σ边界点实现变约束。第二，参考了跟车行为特性并结合安全、效率及舒适驾驶目标设计了多目标奖励函数，其中根据车头时距（Time Headway,THW）概率密度分布曲线设计了新颖的行驶效率奖励函数，同时使智能体吸取错误经验引入机械能形式的惩罚项。第三，选用具有对复杂环境探索能力的深度确定性策略梯度（Deep Deterministic Policy Gradient,DDPG）算法，并与I-80数据结合构建了车辆自主跟随决策的智能体-环境交互模型；对于跟随过程中的紧急避撞情况，依据发生碰撞事故类型数据建立典型场景，分析其典型危险场景共性建立了车辆自主避撞决策模型。　　最后，设计了实验方案对基于深度强化学习的车辆自主跟随决策策略的有效性和准确性进行详细验证分析。对于车辆自主跟车决策模型，以测试集为数据对象，设计了五种策略评估车辆自主跟车决策模型的学习能力，然后从安全、高效和舒适行驶层面对决策模型进行验证，大量的仿真实验验证了该方案的有效性和决策准确性。对于车辆自主避撞决策模型，利用中国新车评价规程（China New Car Assessment Programme,C-NCAP）标准场景设计仿真实验方案，实验结果表明基于DDPG算法制动减速度更加平滑，满足安全性同时兼顾舒适性要求。
作者：	张友松
专业：	车辆工程
导师：	李文礼
授予学位：	硕士
授予学位单位：	重庆理工大学
学位年度：	2022

相关文献

检索历史

应用推荐