详情

原文传递基于多智能体深度强化学习的交通信号控制算法研究

论文题名：	基于多智能体深度强化学习的交通信号控制算法研究
关键词：	多智能体强化学习;异构图表示学习;元学习;协同交通信号控制
摘要：	交通拥堵是当前世界上大多数城市所面临的一个日益严重的问题，其对公众的出行和整个社会的发展都造成了一系列负面影响，如人们出行延误、车辆燃料消耗和环境污染等。在造成交通拥堵的众多因素类型中，由信号控制的交叉路口是城市交通环境中最普遍的交通拥堵瓶颈类型之一，因此交叉路口的交通信号控制是城市交通控制的一个关键部分。近年来，强化学习（ReinforcementLearning）在交通信号控制中受到广泛的关注并被深入的研究。虽然已经有一系列基于强化学习的交通信号控制算法被提出，然而受限于对交通网络的特征表示和不同智能体之间的协同控制，现有的控制算法仍然存在一些不足。对此，本文在现有研究的基础上，通过对强化学习算法深入的研究，从构建交通网络的特征表示来生成每个智能体的控制策略方向，以及协同不同智能体的控制策略等方向进行了重点研究。本文的研究工作如下：　　1）现有的单智能体强化学习算法不能很好地权衡偏差-方差（Bias-varianceTradeoff）；此外，一些有用的关键信息，如相邻路口间的距离等被忽略了，从而可能导致智能体产生非最优的交通信号控制策略。对此，本文提出了一种去中心化的多智能体协同图算法，称为MOA3CG（Multi-stepreturnandOff-policyAsynchronousAdvantageActor-CriticGraph）算法，该算法是基于本文所提出的单智能体强化学习算法MOA2C（Multi-stepreturnandOff-policyAdvantageActor-Critic）和协同图。MOA3CG算法基于当前交通状况，观测历史和其他信息来制定交通信号控制策略。此外，还提出了交通信号相位控制调整矩阵，其通过考虑相邻路口之间距离来确定最优动作的选择，即最优交通信号灯的选择。实验结果表明，与其他先进的算法相比，MOA3CG算法在多个交通性能指标上均有提升。　　2）现有的分层深度强化学习，要么手动设计，要么从环境中获取分层间的隐目标，从而可能导致非最优的低层级策略。针对此，本文首先提出了一种学习分层目标的单智能体强化学习算法，即LSAC（Learned-goalSoftActor-Critic）算法，该算法可自动学习最佳隐目标，然后将其用于低层级策略。其次，针对多智能体协同框架所面临的问题，即随着控制智能体数量的增加导致了状态空间快速增长，本文提出了一种半去中心化的分层控制多智能体SFM（Semi-decentralizedFeudalMulti-agent）框架，其通过对控制区域进行划分，并利用区域智能体来协同不同的单个智能体。结合上述的研究成果，本文提出了一种用于多路口交通信号控制的整体算法，即SFM-LSAC算法。实验结果表明，SFM-LSAC算法在多个交通性能指标上均优于目前最先进的多路口交通信号控制算法。　　3）现有的协同控制算法通常采用针对特定交通网络专门的多智能体设置，然而这类设置阻碍了交通信号控制策略迁移到新的交通网络中。此外，现有的算法也不能有效地表示穿越交通网络的随时间变化的车辆特征和交通网络中不同对象的异构特征。针对上述问题，本文提出了一种用于多路口交通信号控制的算法，称为IHG-MA（InductiveHeterogeneousGraphMulti-agentActor-critic）算法。IHG-MA算法有两个特点：1）它使用本文所提出的归纳异构图神经网络（IHG）算法进行表示学习。IHG算法不仅对每个节点的异构特征进行编码，还对异构结构（图）信息进行编码。2）它还使用本文所提出的去中心化协同框架MA进行控制策略学习。MA框架采用最终的特征表示来计算Q值和控制策略，然后通过Q值和策略损失函数优化整个算法。实验结果表明，和目前最先进的算法相比，IHG-MA算法可有效地迁移到新的不同交通场景中，对多个交通性能指标均有提升。　　4）现有的算法通常只利用了每一时间步的交通状态信息（即短期信息），而长期信息（如每个智能体的任务）被忽略，这可能导致产生非最优的交通信号策略；此外，由于采用了描述平均源任务的共享参数，对多样性任务的处理仍然存在不足。对此，本文提出了一种多路口交通信号控制算法，称为ME-MA2C（MEtaMulti-agentAdvantageActor-critic）算法。ME-MA2C算法由两个部分组成：1）它使用本文提出的元学习（ME）算法进行交通网络元特征的获取。ME算法同时对短期信息和长期信息进行编码以学习元特征表示，从而有助于产生最优的交通信号策略。2）它还使用本文提出的去中心化多智能体框架MA2C进行协同策略的学习。MA2C框架利用学习到的元特征表示计算元Q值和控制策略，并通过对应的损失函数优化整个算法以获得元知识，从而产生可迁移的交通信号控制策略。实验结果表明，与其他的算法相比，ME-MA2C算法可以有效地迁移到不同的交通场景中，并实现有效的交通信号控制。
作者：	杨山田
专业：	计算机科学与技术
导师：	杨波
授予学位：	博士
授予学位单位：	电子科技大学
学位年度：	2022