摘要: |
为了更加有效且可靠地自适应协调交通流量,以减少车辆的停车等待时间为目标,提出了3DRQN(Dueling Double Deep Recurrent Q Network)算法对交通信号进行控制。算法基于深度Q网络,利用竞争架构、双Q网络和目标网络提高算法的学习性能;引入了LSTM网络编码历史状态信息,减少算法对当前时刻状态信息的依赖,使算法具有更强的鲁棒性。同时,针对实际应用中定位精度不高、车辆等待时间难以获取等问题,设计了低分辨率的状态空间和基于车流压力的奖励函数。基于SUMO建立交叉口的交通流模型,使用湖北省赤壁市交叉口收集的车流数据进行测试,并与韦伯斯特固定配时的策略、全感应式的信号控制策略和基于3DQN(Dueling Double Deep QNetwork)的自适应控制策略进行比较。结果表明:所提出的3DRQN算法相较上述3种方法的车辆平均等待时间减少了25%以上。同时,在不同车流量及左转比例的场景中,随着左转比例和车流量的增大,3DRQN算法的车辆平均等待时间会有明显上升,但仍能保持较好效果,在车流量为1800pcu·h-1、左转比例为50%的场景下,3DRQN算法的车辆平均等待时间相比3DQN算法减少约15%,相比感应式方法减少约24%,相比固定时长的方法减少约33%。在车流激增、道路通行受限、传感器失效等特殊场景下,该算法具有良好的适应性,即使在传感器50%失效的极端场景下,也优于固定时长的策略10%以上。表明3DRQN算法具有良好的控制效果,能有效减少车辆的停车等待时间,且具有较好的鲁棒性。 |