当前位置: 首页> 学位论文 >详情
原文传递 车路协同下基于深度强化学习的自适应信号灯控制策略
论文题名: 车路协同下基于深度强化学习的自适应信号灯控制策略
关键词: 自适应信号灯控制;车路协同;深度强化学习;协作机制;交通流
摘要: 随城市交通拥塞频发,传统交通信号灯系统无法提供动态灵活的控制方案,相关研究人员尝试将具有高维感知和自主决策能力的深度强化学习(DeepReinforcementLearning,DRE)技术用于路口信号控制系统智能化升级。然而现有研究大多针对单路口或小规模路网,尚无适用于自适应信号最优控制的通用多智能体强化学习框架。本文以车路协同为背景,针对DRL应用在真实城市路网时遇到的维度灾难、智能体间协作机制模糊以及多智能体并行学习效率低下的问题,提出一种适用于大规模城市路网的协作式多智能体强化学习模型,即基于团的多路口自适应信号控制模型(CooperativeGroupBased-MultipleAdaptiveTrafficSignalControlFramework,CGB-MATSC),在此模型上结合深度Q学习(DeepQ-Learning,DQN)算法提出CGB-MAQL算法,以解决路口级智能体于大规模城市信号控制中可靠性下降、不可扩展的问题。本文主要工作如下:
  (1)针对单智能体模型迁移到多路口场景中无法保持有效性的问题,本文提出基于团的协作式多智能体强化学习信号灯自适应控制模型CGB-MATSC;针对智能体数量激增引发的维度灾难问题,提出了基于k近邻的状态表达、基于道路信息素的区域绿波控制动作以及基于空间折扣因子的回报模式。
  (2)针对基于路口级智能体的孤立式Q学习算法在大规模场景中无法收敛问题,基于CGB-MATSC模型得到可实现稳定学习的孤立Q学习算法,即CGB-IQL算法,以验证所提协作机制的有效性。针对无协作算法在交通流高度动态的多路口场景无法收敛到最优解的问题,在模型上对DQN算法进行改进,得到CGB-MAQL算法,实现智能体模型在真实城市场景异构路网环境中的稳定收敛。同时针对模型训练效率低下问题,提出目标主导的启发式训练机制以及基于Redis的多线程并行学习机制,优化仿真过程中数据交互效率,加速算法向预定目标收敛。
  (3)搭建SUMO(SimulationofUrbanMObility)仿真环境,分别在曼哈顿场景和摩纳哥城市场景上对所提算法下的控制策略进行仿真。从车辆等待时延、路网通行效率以及绿色环保等指标上分析了协作机制和贪婪行为模式对智能体自主学习效果的影响。仿真结果表明该模型下拓展的深度强化学习算法均可收敛,其中CGB-MAQL算法在稳定性、有效性方面表现最优,相比其他策略最多可减少62.03%车辆等待时延;同时该算法在Monaco场景下的测试结果表明其有较好的可拓展性和可移植性。
作者: 曹家华
专业: 电子与通信工程
导师: 王桐;周成功
授予学位: 硕士
授予学位单位: 哈尔滨工程大学
学位年度: 2021
检索历史
应用推荐