论文题名: | 协作最大压力驱动的城市区域交通信号控制方法研究 |
关键词: | 交通信号控制;深度强化学习;协作最大压力;图神经网络 |
摘要: | 城市区域交通信号控制通过分析道路交叉口交通环境状况,从而自动生成交通信号控制策略。准确的交通信号控制策略为城市交通管理部门提供合理的管控依据,为车辆驾驶员提供良好的通行体验,是智能交通领域至关重要的研究方向。近年来,强化学习成为了解决区域交通信号控制问题的有效手段。但在实际交通场景中,随着区域路网规模增大,交通流越来越复杂,导致强化学习智能体状态动作空间的维度呈现指数级增长。深度强化学习依靠决策制定与特征选择的优势,给城市区域交通信号控制问题提供了新的解决思路。然而,现有的方法在奖励设计上依赖于研究者的主观经验选择参数,参数权重的调整会导致不同的行程时间。此外,在区域交通环境交叉口压力状态信息上仍存在感知不足,制约了智能体模型控制交通信号的性能提升。综上所述,本文研究协作最大压力驱动下基于深度强化学习的城市区域交通信号控制方法,主要工作包括: (1)对当前流行的区域交通信号控制模型进行调研和实验,分析了传统模型和深度强化学习模型在行程时间和路网吞吐量指标上对交通信号控制策略的影响。实验结果表明,深度强化学习模型在合成和真实交通流数据集上均优于传统模型,体现出深度强化学习模型对动态变化的交通流有更好的适应性。因此,本文选取深度强化学习模型作为基础模型,为后续研究提供基础。 (2)针对交通信号控制智能体中奖励函数的设计过于依赖主观经验,提出了一种基于协作最大压力奖励的交通信号控制方法CMPLight。首先,设计了一种具有交通控制理论支持的奖励函数,并给出了理论分析证明。然后,扩展交叉口环境的观察状态到下游邻居交叉口。与其他模型的结果相比,在干线区域交通路网上,CMPLight可以在不影响路网吞吐量的情况下显著降低平均行程时间。例如,在干线区域路网合成和真实交通流据集上的平均行程时间分别降低了31.26%和29.96%,在简单网格区域路网合成交通流上降低了约26%,面对不同规模干线区域交通路网表现出更好的适应性和稳定性。 (3)针对区域交通路网环境中交叉口压力信息感知不足,本文提出了一种基于协作最大压力状态的交通信号控制方法CMPLight+。首先,在状态定义中引入交叉口压力信息,借助图注意力机制学习邻居交叉口对目标交叉口的影响,以此获得交叉口当前空间状态特征表示。然后,使用时间卷积网络捕获历史状态信息,进而得到交叉口历史时空状态表示。在干线和网格区域交通路网数据上,与现有模型相比,CMPLight+可以降低车辆平均行程时间和提高路网吞吐量。例如,与CMPLight相比,在干线区域路网合成交通流数据集上行程时间平均降低5.80%,同时拥有最优的路网吞吐量。 |
作者: | 彭玉全 |
专业: | 软件工程 |
导师: | 李琳 |
授予学位: | 硕士 |
授予学位单位: | 武汉理工大学 |
学位年度: | 2022 |