论文题名: | 基于深度强化学习的大规模路网交通信号控制策略研究 |
关键词: | 交通信号控制;深度强化学习;大规模路网;多智能体强化学习 |
摘要: | 交通拥堵常常困扰着世界各地的城市,并导致环境和经济方面的问题,尤其在大规模的路网中,交通拥堵所造成的损失也是庞大,总的来说,大规模路网中的交通拥堵将不利于智慧城市的建设与人类的可持续发展。为了缓解交通拥堵程度,大量的研究被提出,近年来,利用深度强化学习来减少交通拥堵是智能交通研究的一个前沿课题,相较于传统方法,深度强化学习能够充分地从大规模路网中提取信息,更快地搜寻全局最优,以更好地实现大规模路网中的交通信号控制。 然而,大部分研究仍然存在或忽略了一些关键性问题,如交通灯之间若缺乏相应的协调,模型中可能会产生导致持续拥堵的死锁控制策略;另外,在大规模路网中,强化学习模型的动作空间随着交通路网内的路口数量呈指数增长而阻碍强化学习模型的寻优效率。这些问题使得大规模路网交通信号控制具有挑战性。 本工作以深度强化学习为基础,通过合理控制交通信号,达到在大规模路网中增加路网吞吐量,降低车辆延误程度的目的。首先针对当前原始数据维度过大、信息量不足等问题,对原始数据的特征进行提取,结合卷积网络、循环网络和图注意力网络来充分利用时空相关性,最终将提取出来的时空信息进行拼接,输入到强化学习模型中进行进一步的推断。 然后,本工作对大规模路网的交通信号控制策略问题进行数学建模,并进一步实现了马尔科夫决策过程建模,基于合理建模,设计了单智能体强化学习算法框架,通过集中处理,批量地为大规模路网中的交通信号灯输出行车策略。另外,针对路网规模大、路况复杂等特性,本工作采取了多种方法进行优化,如状态定义、奖励定义等。 最后,本工作构建了具有多个子区域智能体和一个全局智能体的算法框架以形成具体策略,实现了大规模路网中的交通信号协同控制,其中,每个子区域智能体在小区域上学习自己的强化学习模型,而集中式全局智能体分层聚合来自不同子区域智能体的信息,并在整个大规模路网上形成价值评估函数以协助子区域智能体进行协调式更新。 实验结果表明,在模拟中,所提出的框架优于所有的基准测试方法,可以平均减少25%的等待车辆数量的拥堵,并能够有效扩展至不同规模的路网。 |
作者: | 黄承浩 |
专业: | 计算机科学与技术 |
导师: | 周涛 |
授予学位: | 硕士 |
授予学位单位: | 电子科技大学 |
学位年度: | 2023 |