当前位置: 首页> 学位论文 >详情
原文传递 知识驱动的强化学习及其在交通拥堵控制中的应用研究
论文题名: 知识驱动的强化学习及其在交通拥堵控制中的应用研究
关键词: 交通拥堵;信号控制;知识驱动;强化学习;置信分配
摘要: 随着社会经济的不断发展,城市居民的出行需求不断增加,与此同时汽车保有量也持续增长。截止2021年底,我国机动车保有量达3.93亿辆,汽车突破3亿辆,驾驶人达4.79亿人;每年新登记机动车3000多万辆,新领证驾驶入2000多万人。另一方面,数十个大型城市的汽车保有量占全国汽车保有量超百分之十,其中北京一城汽车保有量超过600万辆。然而,面对如此庞大的汽车数量,城市交通网络基础设施的建设与更新速度无法与之匹配,导致城市交通拥堵愈发严重,大型城市尤为突出。
  在此种情况下,交通拥堵控制技术就显得尤为重要。在当前阶段,交通流中车辆以人类驾驶车辆为主,车辆行为主要取决于驾驶员的决策,交通信息不能即时传递到驾驶员处,这导致车辆级别的微观交通拥堵控制手段作用十分有限。于是,当前解决交通拥堵控制的问题还是得从宏观交通流控制的角度出发。而当前交通信号控制设备遍布城市交通网络的每个交叉路口,使交通信号控制成为一种最主要的交通拥堵控制手段之一。交通信号控制是一类重要且具有挑战的真实世界的问题,其主要目标是在交叉路口通过协调各个车辆的移动从而最小化所有车辆的通行时间。传统的交通信号控制基于一些数学假设提出了一些对应的规则对交叉路口进行静态的控制。即便当前能收集到十分丰富的交通数据,具有强大的计算能力和诸多先进的智能交通技术,但交叉路口的交通信号技术还停留在相对原始的阶段,未能有效结合这些技术来提升交通信号控制的性能,导致交通信号控制技术仍存在以下缺点:1)现实世界的交通状态复杂多变,数学模型很难完全描述或充分考虑其中的复杂因素,导致实际的控制与真实情况产生偏差;2)大多交通信号控制停留在孤岛控制阶段上,多个交叉口间缺少有效地协作导致全局控制效果不佳。
  基于强化学习的交通信号控制可以动态地对交通流进行控制,从实时收集的交通流数据中对真实交通状态进行学习,避免了基于数学模型的方法在真实环境中可能产生的偏差;多个强化学习智能体之间可以存在信息传递并且可以联合学习,能进行有效地协作。所以,强化学习方法在城市大规模交通信号控制中极具潜力。但是当前强化学习也存在多智能体之间置信分配的问题以及学习过程中数据效率低下的问题。
  本研究主要研究适用于交通信号控制的多智能体强化学习算法。针对多智能体之间置信分配问题,本研究在时序差分强化学习框架上创新地引入平均场理论和基于熵正则化的置信分配方法,解决大规模交通信号控制的维度灾难并平衡各个智能体学习过程,使其具有一致性以获得更好的性能。另外,在线强化学习具有数据效率低下的问题,表现为算法需要大量与环境交互获得大量样本轨迹进行训练,时间开销过大,不利于其应用落地以及模型迁移。为解决此问题,本研究创新地引入了一种元学习方法,利用在交通网络中收集的异质交通流数据结合知识嵌入模型对交通拥堵知识进行学习并用以辅助强化学习决策,提升了强化学习的数据效率。本研究提出的方法相较于传统交通信号控制方法在平均通行时延、交叉口车辆平均排队长度等性能指标上具有明显优势;相较于传统多智能体强化学习方法,在收敛速度、样本效率和性能指标上均有明显优势。
作者: 陈越
专业: 信息与通信工程;通信与信息系统
导师: 李长乐
授予学位: 硕士
授予学位单位: 西安电子科技大学
学位年度: 2022
检索历史
应用推荐