当前位置: 首页> 学位论文 >详情
原文传递 基于深度强化学习的城市交通信号控制研究
论文题名: 基于深度强化学习的城市交通信号控制研究
关键词: 交通信号控制;深度强化学习;状态预测;注意力机制;多智能体协作
摘要: 随着经济的发展和人们生活水平的提高,汽车保有量持续增长,在方便出行的同时带来了严重的交通拥堵问题。传统的基于模型的交通信号控制方法,如固定配时控制、SCATS和SCOOT系统,根据交通状况建立数学模型,以生成或选择配时方案。然而,交通流具有随机性、强非线性等特点,精确的模型难以建立,依赖于大量假设的简化模型又不符合实际的交通状态。随着人工智能技术的发展,数据驱动的深度强化学习结合了深度学习的强感知能力与强化学习的强决策能力,能够从高维数据中提取特征供智能体学习策略,非常适用于交通信号控制的任务。本文对基于深度强化学习的城市交通信号控制进行了深入研究,主要工作如下:
  第一,提出一种结合显式状态预测的深度Q学习(DQN)的信号控制算法。该算法以DQN为基础,采用非均匀量化和独热编码设计简洁且高效的微观状态,并使用长短期记忆网络预测未来的交通状态。该状态设计法权衡了全局和局部的交通信息,在保留最重要的信息的基础上缩小了数据维度。在恰当定义动作、奖励后,智能体根据当前状态和预测状态进行最优决策。在单交叉口、多交叉口的多种流量条件下的实验验证了算法的有效性,在车辆平均等待时间、平均行驶时间等交通性能指标上有一定改善。
  第二,提出一种结合注意力机制的双延迟深度确定性策略梯度信号控制算法。该算法基于行动者-评论家(Actor-Critic)学习架构,跨多个时间步长,将车辆的数目、速度向量集成隐藏状态输入Actor网络;引入注意力机制,弱化不相关信息,强化网络对关键时间步交通状态特征的提取能力,通过前后状态的变化隐式地预测未来状态。算法使用两个Critic网络评估动作,以缓解价值高估的问题;为了减轻两个网络间的耦合性,采取延迟更新的策略,等待Critic网络训练稳定后再更新Actor网络。算法输出的动作为连续值,在固定相序的基础上可以灵活设置相位时长,更容易应用于现有的信控系统。实验结果表明,相较于经典的TD3等算法,该算法利用了交通状态的时序相关性,缓解了交叉口附近的交通拥堵。
  第三,将信号控制从单交叉口扩展到多交叉口,提出一种基于协作式深度双Q学习的路网信号控制算法。该算法基于深度双Q学习架构,每个交叉口都用一个智能体控制信号灯,各智能体在关注本地交通信息的同时也考虑其他交叉口的信息,其奖励设计为本地交叉口与其他交叉口奖励的加权和。引入价值转移策略,其他智能体在上一状态的动作价值参与到本地智能体的策略更新中;并使用空间折扣因子,价值信息随着智能体间距离的增大而衰减。实验结果表明,该算法提高了路网整体的通行效率,验证了多智能体协作的有效性。
作者: 唐慕尧
专业: 模式识别与智能系统
导师: 周大可
授予学位: 硕士
授予学位单位: 南京航空航天大学
学位年度: 2022
检索历史
应用推荐