当前位置: 首页> 学位论文 >详情
原文传递 基于安全强化学习与行为克隆的智能车变道决策研究
论文题名: 基于安全强化学习与行为克隆的智能车变道决策研究
关键词: 无人驾驶汽车;变道决策;安全强化学习;行为克隆;障碍函数
摘要: 当今,无人驾驶汽车是AI技术集大成者,而自动驾驶系统是无人驾驶汽车的大脑,它已成为车辆工程、自动化控制与人工智能等领域的一个研究热点,由此带来一系列待解决的研究问题。其中,变道作为道路交通中车辆经常发生的驾驶行为,若在其过程中决策判断不当,发生交通事故,轻则影响交通秩序,重则造成巨大的人身和财产损失。相较于成熟的自动巡航、自动跟车、自动泊车等自动驾驶技术,自动变道技术目前还未完全落地,亟待解决变道问题中相关技术难题,故选择变道问题为研究对象。
  论文阐述了变道过程拟解决的关键性问题;将变道过程划分为变道意图产生、变道行为实施和变道后调整三个阶段,并对变道过程中安全和能耗问题,分析了现有变道决策方法优劣点,以及深度强化学习应用于变道决策的优势;最后针对自动驾驶部分可观测马尔可夫决策过程的性质,以及深度强化学习的训练成本以及效率问题,提出相应改进方法。
  论文的创新性体现在三个方面:
  ①提出一种基于障碍函数的确定性策略梯度(Deep Deterministic Policy Gradient)智能车安全变道决策方法(DDPG-BF)。采用障碍函数将车辆变道过程中的安全指标加入深度强化学习训练过程,使智能车在变道训练过程中自主倾向选择安全的行为。仿真实验结果表明,在40万步的训练之中,DDPG-BF的回报值在约15万步开始收敛,并将碰撞比率降低至0.1以下。
  ②提出了一种采用深度强化学习动态修改油门-扭矩参数的能耗优化方法。面对自动驾驶变道决策过程中的能耗问题,文章分析了多种耗能因素,并将DDPG与LSTM结合,解决了该实验中由于部分可观测马尔可夫决策过程导致的训练不收敛问题。根据仿真测试的结果,能耗减少了约16.7%,且相较于DDPG方法具有更好的收敛效果;
  ③将行为克隆与深度强化学习相结合以提高训练效率。设置专家示例,采用简化行为克隆的思想,将智能车驾驶与专家示例的状态动作相似度作为约束,对深度强化学习过程进行引导,提升强化学习的效率。实验结果表明,提出的方法应用于DDPG以及本文的DDPG-BF,在碰撞率和收敛所需轮次上均有降低,在16万步训练后保持变道交互距离在安全距离之上,整个训练过程中交互距离小于安全距离的行为比率在5%以下,有效提高了训练效率。
作者: 冯天硕
专业: 计算机应用技术
导师: 张小川
授予学位: 硕士
授予学位单位: 重庆理工大学
学位年度: 2022
检索历史
应用推荐