论文题名: | 基于深度强化学习的交通信号控制优化 |
关键词: | 交通信号;控制优化;双决斗深度Q网络;自适应矩 |
摘要: | 现如今,我国人均国民经济水平与日俱增,人民的生活水平也不断提高。与此同时,人们对汽车的需求量也不断增长,而汽车持有量的大幅增长所带来的首要严峻问题就是交通拥堵,这也对当前的城市发展造成了很大的影响。车辆和行人在道路上必定要经过交叉路口,而交叉路口能够使他们顺畅地通过对整个城市交通的发展也有着长足深远的意义。交通信号控制所针对的对象就是交叉路口,同时,交叉路口也是城市通行能力能否提高的关键所在。目前,在解决复杂多变的交通流问题时,实时性的缺失是基于传统交通学的信号控制方法普遍存在的问题。此外,这种方法所能提供的交通参数也难以对整个城市路网目前的交通状态进行全面地反映。然而,由于各种新兴技术的不断发展,一些新的模型及方法也在不断问世,并且有些已在实际的交通信号控制优化问题中取得了显著的成效。 本文主要研究基于深度强化学习的交通信号控制优化方法。以给定的城市路网为研究对象,在有限的路网区域中探索所能提供的路网车辆最大承载量,同时尽可能地减少路网车辆的平均延迟。首先,基于传统的深度强化学习模型,构建了路网中基于各交叉路口的交通智能体模型,将车辆级别信息和车道级别信息进行整合并作为状态输入,同时针对动作空间和奖励给出恰当定义,从而使其能够在动态的交通环境下自适应地对交通信号进行控制。 其次,利用深度强化学习良好的自我学习能力和高效性,有针对性地构建了一种基于双决斗深度Q网络(Double-Dueling-Deep Q Network,3DQN)的交通信号控制策略模型。该模型由对决网络、目标网络、双Q学习网络以及其他一些必要的网络模块所组成。在对价值的评估过高的情况下,该模型采用了一种特殊的方法,创造性地分离了动作选择与价值估计两个模块,同时,将Q值分解转化为两个部分:其中一个是状态价值,另一个是优势函数,从而实现了对交通状态的精确感知,充分获取了可用的交通环境信息,达到了对交通信号便捷高效地进行实时控制的目的。此外,引入自适应矩估计来优化神经网络,进一步提升了模型表现。 基于2021城市大脑比赛所提供的仿真平台及模拟实际环境的交通数据所进行的仿真实验表明,与传统交通学方法以及DQN等方法相比,本文提出的方法在路网可通行最大车辆数和路网车辆平均延迟指数两项指标上的表现均为最优,充分证明了该方法对提高路网车辆通行能力有很大的帮助。 |
作者: | 王伟 |
专业: | 电子与通信工程 |
导师: | 黄坚 |
授予学位: | 硕士 |
授予学位单位: | 江西财经大学 |
学位年度: | 2022 |