论文题名: | 基于多智能体强化学习的交通信号灯控制方法 |
关键词: | 交通信号灯;控制系统;多智能体;深度强化学习;全息图 |
摘要: | 随着人口增加和人们生活质量的提升,私家车数量急剧增加,进而导致了严重的交通拥堵,给人们的生活和经济都带来了巨大的损失。而缓解交通拥堵的关键在于优化交通信号灯控制方案。交通信号灯控制在这一领域一直是一个非常具有挑战性的问题,尤其是在大型城市路网中。近些年来,多智能体系统(Multi-AgentSystem)已经被广泛用于对智能交通系统进行建模,多智能体强化学习算法已成为解决多智能体系统问题的热门方法。而使用基于全息的有组织的多智能体系统可以进一步降低大规模系统的复杂性。而在用多智能体深度强化学习方法解决信号灯问题时,会遇到了以下问题:(1)智能体数量增长,导致动作状态指数上升,维度爆炸。(2)多智能体共同对环境造成影响,使得环境变得不稳定,智能体之间也无法学到协作协调车流。(3)城市路网规模庞大,交叉路口多,信号灯数量庞大导致多智能体规模庞大,难以建模。针对以上问题,本文工作如下: 本文首先使用SUMO(SimulationofUrbanMobility)对交通环境进行建模。其中要对路网、车流和交叉路口的交通信号灯进行建模来模拟交通信号灯,指挥车流在路网中行驶。本文选用MADDPG(Multi-agentDeeepDeterministicPolicyGradient)算法来为小规模的路网优化控制策略,该算法可以很好的解决维度爆炸和环境不稳定问题,并能够让智能体之间学到相互合作的能力。实验证明,在区域路网中,MADDPG算法相比于固定配时策略、IDQN(IndependentDeepQ-Learning)策略有着明显的优势。 在验证了MADDPG算法在小规模路网的有效性后,本文进一步研究了全息多智能体系统(HolonicMulti-AgentSystem)的组织方式来对大型交通网络进行建模的可能性。包含81个交叉口的交通网络被划分为多个子区域,并分配抽象超全息子来控制每个区域。全息图分为两级,交叉路口的信号灯智能体位于第一级,仍然使用MADDPG算法进行局部策略优化,超全息子处于第二级,是抽象概念没有物理实体,这一层的全息子彼此之间采用改进的最大化压力法(MaxPressure)。两个层次中的全息子之间的层次间相互作用有助于大规模路网的疏通。实验结果表明,MADDPG算法和基于全息系统的多智能体系统相结合可以有效防止路网车辆过饱和,同时可以减少平均延迟时间和平均排队车辆,提高路网的车辆容纳程度。 |
作者: | 陈典 |
专业: | 计算机技术 |
导师: | 张彦如 |
授予学位: | 硕士 |
授予学位单位: | 电子科技大学 |
学位年度: | 2023 |