当前位置: 首页> 学位论文 >详情
原文传递 基于联邦深度强化学习的智能交通信号控制算法研究
论文题名: 基于联邦深度强化学习的智能交通信号控制算法研究
关键词: 智能交通信号控制;联邦学习;深度强化学习;数据隐私
摘要: 智慧交通是未来城市的必然发展趋势,交通拥堵作为制约社会发展的重要因素之一,是智慧交通中亟需解决的问题。对交通信号进行智能控制能有效缓解交通拥堵。近几年,基于深度强化学习的智能交通信号控制研究受到了学术界和工业界的热切关注,但同时也面临使用单一数据进行训练导致的学习效率低、模型鲁棒性差等问题。因此,本文基于联邦强化学习方法开展跨域智能交通信号控制算法研究。
  首先,本文提出了一种基于联邦强化学习的跨域智能交通信号控制架构,进行跨域的智能体分布式联合训练,旨在解决深度强化学习中学习速度慢、模型泛化能力差的问题。该架构能够应用于跨域的多交叉口或多路网等多种信号控制场景。
  随后,本文先针对单交叉口场景提出了基于联邦近端策略优化(ProximalPolicyOptimization,PPO)的交通信号控制方法,在四种交通流量环境下分别训练单独PPO、使用联邦协作机制的联邦PPO以及使用所有本地数据的聚合PPO智能体。实验结果表明,在相同收敛高度下,联邦PPO的收敛速度平均比单独PPO快47.69%,比聚合PPO快45.35%。同时联邦PPO相比固定配时法平均减少27.34%的车辆平均等待时间,在各种交通流量设置下均能有效优化交叉口通行效率,具有良好的鲁棒性。
  接下来,本文将单交叉口场景扩展至路网场景,提出了基于联邦多智能体近端策略优化(Multi-AgentProximalPolicyOptimization,MAPPO)的交通信号控制方法。研究发现,随着路网规模逐渐增大,联邦MAPPO仍能有效提升智能体的平均收敛速度,但程度逐渐从35.31%下降至21.07%。此外,其额外所需的通信资源和延时也随着路网规模的增大而增大。在多种路网规模下的测试实验中,联邦MAPPO对路网通行效率优化效果均优于所有单独MAPPO智能体。
  研究结果表明,本文提出的基于联邦强化学习的跨域智能交通信号控制架构相较于在单一环境中训练的强化学习智能体,不仅能够使得模型收敛速度提升,同时也能使模型泛化能力和稳定性提高,但该架构需要高速通信网络作为支撑。本文为区域间进行合作智能交通信号控制提出了一种可行的解决方案,为日后建立起保障数据隐私的跨域联邦智慧交通平台提供了技术支撑。
作者: 李彦
专业: 信息与通信工程
导师: 黄晓庆
授予学位: 硕士
授予学位单位: 华中科技大学
学位年度: 2022
检索历史
应用推荐