详情

当前位置：首页> 交通中文期刊数据库 >详情

原文传递基于强化学习DDPG的智能车辆轨迹跟踪控制

题名：	基于强化学习DDPG的智能车辆轨迹跟踪控制
作者：	贺伊琳;宋若旸;马建
作者单位：	长安大学汽车学院
关键词：	汽车工程;轨迹跟踪;DDPG;智能车辆;强化学习;神经网络
摘要：	针对智能车辆在轨迹跟踪过程中的横向控制问题，提出一种基于强化学习中深度确定性策略梯度算法(Deep Deterministic Policy Gradient，DDPG)的智能车辆轨迹跟踪控制方法。首先，将智能车辆的跟踪控制描述为一个基于马尔可夫决策过程(MDP)的强化学习过程，强化学习的主体是由Actor神经网络和Critic神经网络构成的Actor-Critic框架；强化学习的环境包括车辆模型、跟踪模型、道路模型和回报函数。其次，所提出方法的学习主体以DDPG方法更新，其中采用回忆缓冲区解决样本相关性的问题，复制结构相同的神经网络解决更新发散问题。最后，将所提出的方法在不同场景中进行训练验证，并与深度Q学习方法(DeepQ-Learning，DQN)和模型预测控制(Model Predictive Control，MPC)方法进行比较。研究结果表明：基于DDPG的强化学习方法所用学习时间短，轨迹跟踪控制过程中横向偏差和角偏差小，且能满足不同车速下的跟踪要求；采用DDPG和DQN强化学习方法在不同场景下均能达到训练片段的最大累计回报；在2种仿真场景中，基于DDPG的学习总时长分别为DQN的9.53%和44.19%，单个片段的学习时长仅为DQN的20.28%和22.09%；以DDPG.DQN和MPC控制方法进行控制时，在场景1中，基于DDPG方法的最大横向偏差分别为DQN和MPC的87.5%和50%，仿真时间分别为DQN和MPC的12.88%和53.45%；在场景2中，基于DDPG方法的最大横向偏差分别为DQN和MPC的75%和21.34%，仿真时间分别为DQN和MPC的20.64%和58.60%。
期刊名称：	中国公路学报
出版日期：	202111
出版年：	2021
期：	11
页码：	335-349

相关文献

检索历史

应用推荐