当前位置: 首页> 学位论文 >详情
原文传递 基于深度强化学习的交通信号控制研究
论文题名: 基于深度强化学习的交通信号控制研究
关键词: 交通信号;自适应控制;多智能体学习;独立强化学习;合作马尔可夫博弈
摘要: 城市和经济的发展带来了日益增长的人流和车流,使得交通拥堵问题日益凸显出来。自适应交通信号控制(AdaptiveTrafficSignalControl,ATSC)通过优化交通信号控制策略疏通交通流,被科研人员寄予厚望。近年来,强化学习(ReinforcementLearning,RL)作为一种高效的自适应优化控制技术在ATSC领域取得了大量的成果。多路口间的协同控制涉及多智能体间的协作和协调,目前仍是ATSC领域内亟待完善的研究内容。
  为此,本文将ATSC问题建模为邻居感知型马尔可夫博弈(Neighbor-AwareMarkovGame,NAMG)。在该博弈中,各路口被建模为主动学习的智能体,通过与邻域范围内的路口互相协调和策略训练,最终获得全局范围的最优信号灯控制策略。由于城市交通规模普遍较大,无法使用现有流行的集中训练分布式执行框架算法。而在独立训练的多智能体强化学习框架中,智能体将其他智能体当作环境的一部分,通过通信和约定的协议训练最优协作策略,成为了解决ATSC问题的首选。同时考虑到ATSC中路网具有明显的图拓扑结构,本文在现有的独立训练算法HystereticDQN的基础上,提出了邻域协调的MARL架构——NeighborhoodCooperativeHystereticDQN(NC-HDQN)。在该架构中,NC-HDQN智能体根据邻域范围内的轨迹信息分析其与邻居智能体的相关程度,并用该相关程度加权邻居的观测和奖励信息。基于加权后的轨迹信息,各个NC-HDQN智能体使用HystereticDQN算法独立地训练协同策略,最终获得最优的联合控制策略。
  针对路口间相关性计算问题,本文针对性的设计了两个NC-HDQN算法,即基于专家经验的NC-HDQN方法(EmpiricalNC-HDQN,ENC-HDQN)和基于Pearson相关系数的NC-HDQN方法(PearsonNC-HDQN,PNC-HDQN)。第一种方法假设路口间的相关性与连接两个路口的道路间车辆数目正相关,而第二种方法是利用相邻路口间奖励轨迹的Pearson相关系数自适应地计算每对Agent之间的关联度。
  为检验本文提出算法和框架的有效性,本文在一个合成交通网络和两个真实的交通网络中进行了实验验证。实验结果显示ENC-HDQN和PNC-HDQN方法在所有现有交通信号控制的评价指标上几乎都优于现有工作,表明本文提出的方法能够更好的应对交通环境中多智能体间的协调问题,显著缓解交通路口的拥堵情况,具有良好的理论和实用价值。
作者: 田宇
专业: 软件工程
导师: 葛新;张程伟
授予学位: 硕士
授予学位单位: 大连海事大学
学位年度: 2022
检索历史
应用推荐