论文题名: | 基于深度强化学习的交通信号控制 |
关键词: | 智能交通;信号控制;深度强化学习;近端策略优化算法;深度循环Q网络算法 |
摘要: | 近年来,深度强化学习方法已被应用于解决许多复杂的现实世界问题,并且作为一种新兴技术应用于交通控制中。针对交通信号控制策略寻优问题,强化学习方法通过与交通环境不断地交互来学习如何在不同的状态下做出最佳决策。这种方法可以部署在交通信号控制系统中,实现最优交通信号控制策略,以减少交通拥堵。然而,将强化学习应用于实际的交叉口信号控制系统,还存在诸多约束,例如交通检测技术、通信延迟、可拓展性、稳定性以及合适的深度强化学习( Deep Reinforcement Learning, DRL)算法等,实现基于DRL的交通信号控制仍然具有一定的挑战性。本文对深度强化学习方法在交通信号控制中的应用进行研究,所做的研究工作包括: 首先,在单交叉口场景下,提出了一种基于深度循环Q网络(Deep Recurrent Q-network,DRQN)算法的信号控制方法,在深度Q学习(Deep Q-learning,DQN)算法的基础上,结合循环神经网络对其改进,使其在部分可观察的环境中也能够有效学习,并结合实际交通情况对状态空间、动作空间和奖励函数进行有效设计,使其更适用于真实场景中单交叉口的交通灯控制。本研究利用SUMO仿真软件在不同交通流量分布的场景下进行了多组对比实验。结果表明,所提出的智能体算法可以适应多种交通场景,在低、中和高密度流量下均优于静态交通信号控制系统,整体通行效率提高了50%以上。 其次,在干线交通信号控制背景下,将单智能体近端策略优化(Proximal Policy Optimization ,PPO)算法拓展到多智能体领域,提出了一种基于参数共享近端策略优化的自适应干线信号协调控制方法,以减少干线交通延误。大多数现有的基于多智能体强化学习的信号控制方法均存在不符合实际的假设条件来提高其在复杂和动态交通场景中的性能。为了减少这些假设,增强算法的实用性,本研究应用参数共享训练协议来改进由于非平稳性导致的缓慢收敛,并减少计算开销,具有高拓展性和高稳定性。本研究还设计了一种新的动作空间,使用超前-滞后相位方案来提高多个信号灯协调的灵活性,提出了一种可以有效避免溢流情况的奖励函数。大量仿真实验结果表明,与传统方法和最新的强化学习方法相比,本研究所提出的算法在仿真合成干线和现实世界干线中表现更稳定,训练结束所获得的奖励最高,收敛所需的时间最少,计算性能上表现出较大的优势,并且能有效防止车流溢出,因此可以更有效地缓解城市干线交通拥堵。 |
作者: | 方亮亮 |
专业: | 通信与信息系统 |
导师: | 张伟斌 |
授予学位: | 硕士 |
授予学位单位: | 南京理工大学 |
学位年度: | 2021 |