当前位置: 首页> 学位论文 >详情
原文传递 基于深度强化学习的多路口交通信号控制策略的研究与实现
论文题名: 基于深度强化学习的多路口交通信号控制策略的研究与实现
关键词: 交通信号控制;深度强化学习;多智能体系统;机动车
摘要: 随着我国城市化进程的发展,机动车保有量不断提高,城市的交通拥堵问题也越发严重。智能化交通信号控制,是提升交通系统运输效率的重要方式。现有的交通信号控制策略通常都是基于人工经验进行预先设计的,无法针对多变的交通环境自适应调整。近年来发展的基于深度强化学习(DeepReinforcementLearning)的交通信号控制方法,能根据实时的交通信息,调整交通信号控制策略,更好的处理动态多变的交通系统环境。现有的基于深度强化学习的交通信号控制方法,主要分为面向单智能体建模的方法和面向多智能体建模的方法。
  面向单智能体建模方法是目前较为成熟的方法。该类方法当前存在的一个问题是,在处理大规模交通环境时,存储训练样本所产生的内存开销,会成为其性能的瓶颈。因此本文提出了一种基于在策略学习(on-policylearning)的交通信号控制算法,在不占用额外内存的情况下,能够学习到有效的信号控制策略。本文针对传统在策略学习训练样本利用率低的问题,引入了近端策略优化(ProximalPolicyOptimization)方法,来提高样本的利用率。该方法基于重要性采样的思想,设计了一种梯度裁剪机制。该机制通过限制参数之间的差异比例,来控制更新时的梯度方向和范围,使算法在不破坏原有在策略学习理论性质情况下,可以利用同一批样本对策略进行多次有效的更新,提升了算法的训练效率和学习效果。
  面向单智能体建模的方法没有考虑智能体间的合作来学习策略,并且是通过智能体优化局部性能,来间接优化整体性能。而面向多智能体建模的方法,可以使智能体间以优化整体性能为目标,合作地学习策略。但传统多智能体建模方法在处理交通环境这种大规模系统时,存在维度诅咒(curseofdimensionality)问题。因此本文提出了一种智能体间合作学习的交通信号控制算法,该方法引入了集中式训练,分布式执行(CentralizedTrainingwithDecentralizedExecution)的学习模式,使得算法可以在执行策略时仅依赖于局部信息,令所处理的状态和动作空间维度缩小。而在训练时会使用上整体系统的信息,令智能体以优化全局性能为目标,进行合作策略的学习。使算法在保证学习能力的同时,缓解了维度诅咒问题。
  本文针对单智能体建模算法在多种交通环境设置中进行了测试,实验结果表明它能学习到和基准方法性能相近或更优的信号控制策略。针对多智能体建模方法,本文也在多个环境条件下进行了验证,实验结果表明面向多智能体建模的方法在中小规模的路网上,可以学习到比面向单智能体建模方法更有效的信号控制策略,且性能的提升随着路网结构的复杂度增加而更加明显。
  本文的最后设计并实现了一个交通信号控制策略的学习系统,用户可通过上传相应的环境配置文件并指定学习算法,创建信号控制策略学习任务。
作者: 张皓鹏
专业: 计算机技术
导师: 吴巍炜;王万元;王鑫
授予学位: 硕士
授予学位单位: 东南大学
学位年度: 2021
检索历史
应用推荐