论文题名: | 基于深度强化学习的多模式交通自适应信号控制优化方法研究 |
关键词: | 交通信号控制;深度强化学习;多模式交通;SUMO仿真 |
摘要: | 交通信号控制具有重大的经济、环境效益。近年来,将强化学习技术应用于自适应交通信号控制中越来越受关注。大量基于强化学习的信号控制研究表明,以减少车辆延误和排队长度为约束条件,通过设计智能体的奖励,最大限度地提高车辆在交叉口的通过量或速度,这种方法能够显著提高车辆在交叉口的通行效率。尽管在通行效率方面取得了很有前景的结果,但现有研究中交通场景多为小汽车,交通方式组成单一,缺乏真实性。且将所有车辆视为相同的优先级,而关于现实中常见的多模式交通关注过少。同时,只考虑延误训练出的智能体,在控制策略上会使大幅牺牲弱势车流的利益,使得部分方向车流或人流等待时间过长,在现实中会降低驾驶员舒适度,行人会选择闯红灯,这会带来更严重的问题。 针对上述问题,本文提出了一种基于强化学习的自适应交通信号控制方法,以协调交叉口的多模式交通利益。该方法的目标是降低多种交通模式(包括车辆、公交车、行人及非机动车)的人均等待时间,使信号灯均衡多模式的全局利益。然后对模型的奖励、状态和动作进行设计,以平衡不同模式的效率。本文的主要研究内容总结如下: (1)提出了一种基于深度强化学习的单点交叉口多模式交通自适应信号控制优化方法。该方法使用深度强化学习框架,以车辆、公交车、行人及非机动车的位置、排队长度等作为状态输入,以下一步长的绿灯相位为动作,训练智能体以实现多模式交通场景下人均等待时间的奖励最大化。同时为了防止智能体大幅牺牲弱势车流,在模型结构中构建了过长等待时间的惩罚机制。仿真实验表明,该训练好的智能体可以大幅度提升交叉口对多模式交通的信号控制效率,每种模式的平均等待时间相比传统交通信号控制方案均下降10%以上。 (2)提出了一种基于多智能体强化学习的交通干线多模式交通信号协调控制优化方法。该方法在上述单点交叉口信控模型的基础上,采用集中式训练分布式执行的方法,搭建了协作式多智能体强化学习框架。该框架考虑了相邻交叉口信号相位信息的通信,以干线全局的人均等待时间奖励最大目标进行训练。仿真结果表明,该模型显著提升了多模式干线交通的通行效率,在多项评价指标中超越传统的干线绿波模型。 (3)构建了一种基于SUMO仿真的多模式交通训练及测试场景。该仿真环境采用威布尔分布及正态分布生成社会车辆、行人及非机动车流量,利用公交间隔时间随机生成公交流量,较为真实、全面的还原真实交叉口状况。并在仿真环境中提供了python交互函数,实现了多模式交通仿真环境的动态控制及数据提取。 |
作者: | 王雷震 |
专业: | 交通运输工程 |
导师: | 王昊;芦方强 |
授予学位: | 硕士 |
授予学位单位: | 东南大学 |
学位年度: | 2021 |