当前位置: 首页> 学位论文 >详情
原文传递 基于深度强化学习的无人车安全跟驰决策研究
论文题名: 基于深度强化学习的无人车安全跟驰决策研究
关键词: 跟驰决策;深度强化学习;分阶段跟驰;重要性采样
摘要: 在无人驾驶汽车中,自动跟驰是一项重要研究的内容。它可以帮助降低驾驶员的驾驶强度、缓解驾驶员的疲劳,提高车辆行驶安全性和交通流畅性。论文以深度强化学习方法为手段,分别从线强化学习(online-RL)与离线强化学习(offline-RL)两个方面入手,先将跟驰车辆作为一个强化学习的智能体,再开展相应的在线训练和离线训练,最后获得最优安全跟驰策略。具体开展了以下工作内容:
  (1)验证Transformer作为骨干网络的离线强化学习算法DecisionTransformer在安全跟驰决策中的决策效果。分析Transformer结构及其在跟驰决策中的可行性,将离线强化学习算法DecisionTransformer应用到自动驾驶跟驰决策中,并针对缺少在TORCS仿真平台的公开数据集,使用训练好的智能体(仿真车辆)采集离线数据并和PPO算法、CQL算法进行比较。
  (2)由于跟驰过程中存在不断启停和稳定速度跟驰交替进行的问题,所以本文提出建立一种分段近端策略优化算法subsection-PPO,将车辆跟驰过程分为启停阶段和稳定阶段,使用两个网络结构相同的actor网络分别对应两个不同的跟驰阶段,并且为了提高数据的利用效率使用加权重要性采样方法进行采样,实验结果表明训练效率有所提升,并且在跟驰场景中subsection-PPO有着比PPO高的训练效率以及比DDPG高的安全性,在保持安全间距的情况下行驶的距离占总里程长度的93.8%。
  (3)PPO算法在自动驾驶跟驰决策问题中有着较好的表现,但是,在训练过程中其累计回报不高并且在测试阶段安全行驶距离不足。因此本文提出二维重要性采样近端策略优化算法TDIS-PPO使用深度网络拟合动作分布的方差,在动作均值和方差两个维度对优势函数的分布进行无偏估计提高训练效率和累计回报,并且针对强弱跟驰两种场景,分别设计相对应的奖励函数。经过100万次timesteps训练,相较于PPO算法,其训练阶段的累计回报有所提高,并且在强弱跟驰场景中,保持安全间距状态下的行驶里程增加了3.90%和4.49%。
作者: 黄勇
专业: 计算机应用技术
导师: 张小川
授予学位: 硕士
授予学位单位: 重庆理工大学
学位年度: 2023
检索历史
应用推荐