论文题名: | 基于深度强化学习的区域边界交叉口信号控制 |
关键词: | 边界信号控制;宏观基本图;深度强化学习;SUMO仿真 |
摘要: | 随着城市化进程加快,城市交通拥堵问题已由节点,干线扩展为整个区域,区域控制对于城市交通拥堵改善具有重要意义。宏观基本图是反映区域交通流量、密度和速度关系的图形,可作为区域通行效率的评判依据。利用宏观基本图在拥堵区域边界对进出区域的车流量进行调控(即边界控制),从而改善城市中心区域的拥堵,是当前宏观交通控制领域的热点。 交叉路口的信号灯控制,是从微观角度实现区域边界控制的重要途径。当前多数信号控制方法基于历史数据调整信号配时,在动态适应交通状态方面仍存在不足。基于深度强化学习的信号控制具有自学习、适应于随机交通环境的特点,相比于传统信号控制更具优势。因此,本文基于宏观基本图进行交通子区之间流量控制,在此基础上,将深度强化学习算法应用于区域边界路口信号灯配时优化,通过仿真验证本文提出的宏微观结合的边界控制策略的有效性。主要研究内容包括: 首先,基于模型预测控制框架的宏观边界控制参数求解。针对两区域交通系统,建立以边界车辆放行比例为控制参数,以区域完成流最大化为目标的区域边界控制模型。利用区域边界控制模型预测交通系统未来一段时间的状态,随后借助遗传算法优化控制参数,将优化后的控制参数作为微观交通仿真模型的输入,通过递阶控制策略提高路网整体的通行效率。并将微观交通仿真模型的当前状态反馈给区域边界控制模型。 其次,基于深度强化学习的交叉口微观信号方案求解。建立子区边界路口信号控制模型描述城市边界交叉口车辆运行过程,基于该模型构建深度强化学习智能体的交互环境。同时将边界路口进口道等待车辆数与预期转移车辆数(即宏观控制参数与转移流的乘积)构造为状态空间,给定信号控制方案作为动作空间,并根据边界路口实际转移值与预期转移值设计奖赏函数。深度强化学习算法通过最大化累计奖赏函数实现边界路口实际转移车辆数与预期值尽可能接近。随后,通过深度Q网络与近端策略优化算法进行多场景比较,实验表明近端策略优化算法在收敛效果以及收敛速度方面均表现更好。 最后,利用交通仿真软件SUMO搭建3?6的虚拟交通路网,利用该软件TraCI接口获取仿真路网的宏观基本图作为评价工具。随后,构造区域边界交叉口信号控制仿真模型作为深度强化学习智能体的交互环境。智能体通过观察交叉口进口道的车辆状态进行动态信号相位切换,从而在边界上控制车流的进出,以保证路网中的车辆数尽可能处于最佳值附近。实验结果表明区域拥堵状态有所缓解。 |
作者: | 王银银 |
专业: | 工业工程 |
导师: | 傅惠;王叶飞 |
授予学位: | 硕士 |
授予学位单位: | 广东工业大学 |
学位年度: | 2022 |