论文题名: | 基于深度强化学习的交通信号控制方法研究 |
关键词: | 交通信号控制;深度确定性策略;周期式信号控制;深度强化学习 |
摘要: | 当下,日益严重的交通拥堵问题制约着我国许多城市经济与环境的可持续发展。交通信号控制是改变交通流量的主要方法,交通流量的优化可以提高道路通行能力,进而缓解交通拥堵。因此,交通信号控制方法的研究和实现具有重要的现实意义。 人工智能的变革式发展给交通信号控制方法的研究和实现带来了更好的解决思路。深度强化学习具有数据驱动、无模型、自学习的特征。使用深度强化学习求解交通信号的控制问题无需考虑交通系统的内部机理,不仅降低了问题求解难度,也能够更好地适应不同交通场景。随着多智能体强化学习的出现和发展,基于深度强化学习的区域信号控制全局优化正在取代单路口信号控制局部优化,成为新的研究热点。 本文深入研究了深度强化学习及其在交通信号控制中的应用,提出并实现了一种基于多智能体深度确定性策略梯度的周期式信号控制(MADDPG-TCS)算法。该算法能够有效且稳定地控制交通信号,进而改善交通拥堵问题。本文的主要工作内容如下: 首先,本文使用基于车辆的状态信息,以提高道路通行能力、缓解交通拥堵为目标,对每个交叉口迭代学习交通信号的相位时长,构建了应用于周期式信号控制的强化学习模型。该模型能够很好地适用于当前以雷达探测和视频检测为主要交通数据收集源的现状。 其次,本文定义了使用信号相位差的协同动作,并考虑交叉口在交通层面上的耦合关系,将区域道路网络抽象成无向图,进而可以仅对当前交叉口共享有道路相连的交叉口信息。以此解决了多智能体深度确定性策略梯度算法直接应用于区域交通周期式信号控制的过程中存在的以下问题:①区域内的不同智能体对交叉口下发信号控制方案的时间是不同步的;②区域内交叉口的数量越多,智能体获取的数据维度就越高,同时其它交叉口的信息对智能体的影响也越大,算法难以收敛。 最后,为验证算法性能,本文在交通仿真软件SUMO上对含有三个同构交叉口的区域进行设计并实现了区域交通信号控制的仿真实验。为切实提高算法的训练效率,本文对算法的训练过程进行忽略初始时间步数据、调整采样和更新步调以及并行实现仿真环境的优化。本文通过算法实现和对比分析,得出了以下结论:①MADDPG-TCS算法在训练过程中很好地平衡了每个智能体策略的探索和利用,有较好的收敛性和稳定性;②MADDPG-TCS算法可以充分利用协同路口的信息;③相较于原始定时方法和Webster配时方法,MADDPG-TCS算法在车辆排队长度和车辆延误时间这两个对比指标上均有显著提升。 |
作者: | 冯聪 |
专业: | 应用统计 |
导师: | 蒋学芹 |
授予学位: | 硕士 |
授予学位单位: | 东华大学 |
学位年度: | 2022 |