论文题名: | 考虑城市公路场景下自动驾驶决策规划方法研究 |
关键词: | 自动驾驶;轨迹规划;确定性策略梯度算法;深度强化学习;条件模仿学习 |
摘要: | 高速公路驾驶对人类来说是一项具有挑战性的任务,它需要长期的智能决策来实现具体的任务,并进行短期的轨迹规划来安全地执行这些决策。通常情况下,决策模块会根据感知模块的结果生成一些动作,并将这些动作值输出给规划模块,以实现安全且舒适的轨迹生成。然而,工业界和汽车制造商很少将感知和规划模块作为一个整体进行研究。首先,现有的单一决策方法无法处理大量的环境信息。其次,传统的规划方法无法满足所有的应用情况。再者,尽管有许多学术研究将这两个模块作为一个整体来研究,但由于不同的应用场景和开发方法的差异,很少有一种综合处理的方法能够被提出。 因此,本文采用DDPG决策算法,并结合传统的基于数学模型的理论方法,解决上述问题,提出了一种决策规划模块设计方法。该方法借鉴前人的研究思路,以完成任务为前提,针对不同的驾驶任务和多种复杂的环境,在考虑驾驶的平顺性、舒适性等评价指标的基础上,完成决策规划模块的设计。 主要研究如下: (1) 首先使用传统的行为决策方法,本文提出了一个层次结构的决策和规划的公路驾驶任务。本文利用智能驾驶模型(IDM和MOBIL)根据周围的交通状况做出长期决策。这些决定既能最大限度地提高自车表现,又能尊重其他车辆的目标。其次,采用深度学习与强化学习相结合的方法。在评估深度强化学习的方法时,将传统的决策方法用作基线方法。本文所使用的深度强化学习算法将车辆的轨迹状态作为输入,同时还将可以获得深层次信息的图像以及车辆的雷达、IMU等获得的信息作为自动驾驶汽车的决策部分的输入。 (2) 面对复杂交通场景,本文结合基于多项式的规划算法以及数值优化的算法进行轨迹规划。由于复杂的环境下可能会出现各种突发状况,因此,在数值优化部分结合碰撞算法以及舒适性等因素对轨迹进行优化设计,以应对复杂的驾驶状况。 (3) 搭建本文参考的条件模仿学习(Conditional Imitation Learning,CIL)网络,并通过数据集采集数据。最终通过对图像进行处理(翻转、调整亮度、增加阴影等),将处理后的图像数据集用于搭建的条件模仿学习模型的训练和验证,证明了模型已达到最优结果。通过与强化学习算法的结合,可以产生准确的决策结果。 (4) 最后,搭建仿真环境,参考相关研究的设计方案,在5000秒的运动学片段进行测试,验证本文的决策规划系统,并在仿真实验中对比分析不同算法结合的输出结果。仿真测试结果表明本文的方法具有良好的算法优越性。 |
作者: | 何磊 |
专业: | 车辆工程 |
导师: | 邓国红 |
授予学位: | 硕士 |
授予学位单位: | 重庆理工大学 |
学位年度: | 2023 |