论文题名: | 多状态下单交叉口在线强化学习配时优化 |
关键词: | 单交叉口;在线强化学习;配时优化;交通信号控制 |
摘要: | 随着人民物质生活水平不断提高,城市机动车保有量急剧上升,而交通基础设施的建设速度难以满足飞速增长的交通需求,导致城市道路越来越拥堵。因交通拥堵排放的汽车尾气正加剧城市雾霾天气,同时增加了居民出行成本和行程时间,交通问题已成为阻碍城市发展的一大因素。解决交通问题除了修建城市道路,还可以通过成熟先进的交通信号控制来改善交通。 本文首先介绍了强化学习基本原理,简要概述了三种行为选择方法,并进行了相互比较,接着介绍了Sarsa学习算法和Q学习算法及基本流程。然后,在Vissim中构建路网,在Matlab中分别建立行为选择函数、状态函数、奖赏函数、更新q0count函数和更新q函数,在Excel-VBA中完成主体强化学习算法的编程,由此构建了基于Vissim-ExcelVBA-Matlab的在线交通仿真平台。接着选取交叉口流量作为状态,信号配时方案作为行为,以延误最小为目标,建立了多状态下基于延误的强化学习模型。最后分别以智能算法Q学习算法和Sarsa学习算法作为信号优化的核心,在Excel-VBA中设置初始化阶段、循环阶段和检验阶段并在线仿真优化。本文选用count值作为判断Q值矩阵收敛的变量,cout值在Q值矩阵波动符合一定条件下自动递增,在超出该条件后又变为0。最后,分别得到Q值矩阵图,依据颜色棒判断Q值大小,从而得到最优行为集合,然后设置1000时间步的检验时间来比较分别通过Sarsa学习和Q学习算法优化后的交叉口平均延误时间。在线仿真结果表明,在Q值矩阵收敛速度上,Q学习优于Sarsa学习;在延误时间指标上,Sarsa学习优于Q学习。本文最后对研究工作做了总结,并提出需要更深入研究的问题。 |
作者: | 程亚 |
专业: | 交通运输工程(交通信息工程及控制) |
导师: | 卢守峰;沈文 |
授予学位: | 硕士 |
授予学位单位: | 长沙理工大学 |
学位年度: | 2015 |
正文语种: | 中文 |