当前位置: 首页> 学位论文 >详情
原文传递 环岛环境下的深度强化学习自动驾驶决策研究
论文题名: 环岛环境下的深度强化学习自动驾驶决策研究
关键词: 自动驾驶汽车;驾驶决策;深度强化学习;环岛工况
摘要: 随着计算机技术的快速发展,自动驾驶已成为汽车领域发展的主流方向,而决策规划则是其中的关键技术之一。如何保证车辆在高度交互的城市场景(例如环岛、十字路口等)中的安全性,成为自动驾驶技术发展中的重要课题。相对于需要特定场景特定设计的规则方法,深度强化学习(Deep Reinforcement Learning, DRL)算法具有较大优势。DRL避免了繁重的算法设计过程,且性能可通过不断训练得到提升。本文旨在将深度强化学习应用于自动驾驶环岛决策场景,以研究智能车在复杂场景下的决策问题。
  本文首先介绍了强化学习相关知识,包括基础概念、深度强化学习算法和离线强化学习算法等。然后分析了环岛决策的特殊性,包括环岛驶入、环岛内行驶和环岛驶出等阶段。同时,介绍了 Carla仿真器,并结合强化学习 gym 框架搭建了强化学习训练环境。之后,使用A?算法规划了全局路径,并设计了基于二次优化原理的离散点平滑算法,将平滑后的路径作为后续仿真的导航路径。
  接着,针对环岛驾驶特点,设计了包括基于深度强化学习、基于规则和基于两者融合的决策算法。
  基于深度强化学习的决策算法,采用了软演员-评论家 (Soft Actor-Critic, SAC) 算法作为基础算法,并将双时间尺度更新规则(Two Time Scale Update Rule,TTUR)和优先经验回放(Prioritized Experience Replay, PER)算法融合到了 SAC 算法中,提出了TUPE-SAC 算法,并对算法更新流程和网络架构进行了设计。同时,针对环岛驾驶的不同阶段分别设计了状态空间;在动作设计中将制动和油门合并为加速度控制,并采用跳帧来简化决策难度;依据期望的车辆驾驶行为和环岛特性设计了奖励函数。在最后一章中进行了上述算法的仿真训练和验证。结果表明,TUPE-SAC 算法的训练速度相较于SAC等算法有不错的提升,并在验证阶段获得了最优的驾驶安全性、较优的驾驶平顺性和驾驶效率。
  本文中,规则决策被分为纵向决策和横向决策。纵向决策在环岛内需同时控制速度和转向。其中,速度由按照环岛驶入的特点进行改进的智能驾驶员模型(Intelligent Driver Model, IDM)控制,转向由纯跟踪模型控制,最后两者通过 PID 反馈进行输出。横向决策即为换道决策,采用了换道引起的最小制动模型(Minimizing Overall Breaking Induced by Lane Changes, MOBIL)来识别换道意图,并采用五次多项式曲线来生成换道轨迹。
  为了进一步提高决策的安全性,提出了融合决策框架,并使用隐式Q学习(Implicit Q-Learning,IQL)来对不同的策略进行评估。为了提高评估的准确性,采用不同的轨迹集来对IQL算法进行训练并测试。测试结果表明,基于混合轨迹集的IQL算法在各IQL算法中具有最好的性能,并用于后续的融合决策中。
  最后,进行融合决策的仿真实验。基于训练完备的TUPE-SAC算法、规则决策和IQL算法提出了LF-SAC-Rule和LF-SAC-IQL两种轻融合(Light Fusion, LF)决策算法。仿真结果表明 LF-SAC-IQL 获得了稍优的驾驶安全性。之后,为了提高算法训练过程中安全性,提出了基于重融合(Re-Fusion, RF)框架的RF-SAC-IQL算法,并在仿真环境中进行了训练和验证。结果表明,重融合框架能在DRL的动作探索阶段大幅度减少危险动作的输出,保证了车辆训练过程中的安全性,降低了训练成本。在最后的测试中也获得了更优的安全性、驾驶效率和驾驶平顺性。
作者: 石裕康
专业: 车辆工程
导师: 吴坚
授予学位: 硕士
授予学位单位: 吉林大学
学位年度: 2023
检索历史
应用推荐