论文题名: | 基于强化学习的高速公路CAVs协同驾驶决策研究 |
关键词: | 智能网联汽车;自动驾驶;智能决策;深度强化学习 |
摘要: | 随着智能网联汽车(Connected and Automated Vehicles,CAVs)的不断发展,CAVs自动驾驶中的高层决策问题受到了广泛关注,传统基于规则的自动驾驶决策方法由于设计的复杂性以及难以考虑交通环境中可能发生的各种情况而存在较大的局限性。机器学习的快速发展使得强化学习(Reinforcement Learning,RL)这种自适应的学习方法备受关注,利用RL进行自动驾驶的智能决策引起了研究人员极大的兴趣。大量研究成功地将RL技术应用于自动驾驶车辆(Autonomous Vehicle,AV)的决策部分,将RL应用于自动驾驶的决策方面有望解决传统基于规则的决策方法的不足,但是现阶段RL在自动驾驶的决策方面的研究主要关注于单辆CAV的驾驶决策,对于车辆之间的协同决策研究相对较少,而自动驾驶本质上是一个多智能体系统,道路上存在的多辆CAVs相互影响,现有的基于RL的自动驾驶方法大多只在多CAVs环境中直接应用简单的分布式RL来完成特定的操作,很少考虑车辆之间的交互依赖性,并且没有明确的协调方法在学习过程中被应用,这些限制将影响整体交通效率。因此,CAVs进行RL协同决策的研究具有较大的研究价值。 本文研究了高速公路上最常见的两种场景:直线行驶和匝道合并。针对这两种场景下的基于强化学习决策的CAVs的协同驾驶决策问题,提出了一种高速公路直线行驶下的基于深度Q网络(Deep Q Network,DQN)体系结构的带驾驶决策规则约束的深度强化学习(Deep Reinforcement Learning,DRL)协调驾驶方法,针对CAVs匝道合并下的协同决策提出了一种基于近端策略优化(Proximal Policy Optimization,PPO)改进的协作式C-PPO算法。相关研究工作如下: 在高速公路直线行驶场景中,提出了一种基于DQN体系结构的带驾驶决策规则约束的DRL协调驾驶方法(RCDQN)。一方面,它结合了传统的基于AV驾驶规则的决策方法和DRL方法。另一方面,结合同质经验共享(Homogeneous Experience Sharing,HES)的思想,通过车辆之间的经验共享,提高团队学习效率,促进车辆之间的协作学习。与其它无协作学习或依赖专家规则的车辆模型相比,实验评估验证了该方法能够取得更高的回报以及以更快的速度行驶。 针对CAVs匝道合并时的协同决策问题,提出了一种基于PPO改进的协作DRL算法——C-PPO。首先,基于RL构建CAVs匝道合并场景下的马尔科夫决策过程(Markov Decision Process,MDP)模型,针对匝道场景下的安全性、速度稳定性、时间进度以及匝道合并成本这四个维度设计了有效的奖励函数。其次,采用了演员-评论家(Actor-Critic)框架,设计了一个新颖的协作机制,即在策略更新过程中的多个时期动态考虑匝道附近CAVs的策略更新信息,这一过程可以协调地调整优势值以实现匝道合并车辆之间的协作。实验结果表明,与传统的PPO算法相比,C-PPO算法在匝道合并问题中的效果显著优于基于PPO和ACKTR(Actor Critic using Kronecker-Factored Trust Region)等主流RL算法。 |
作者: | 陈广福 |
专业: | 软件工程 |
导师: | 谢光强 |
授予学位: | 硕士 |
授予学位单位: | 广东工业大学 |
学位年度: | 2022 |