当前位置: 首页> 学位论文 >详情
原文传递 单交叉口配时优化的函数逼近型强化学习模型
论文题名: 单交叉口配时优化的函数逼近型强化学习模型
关键词: 交通运输;BP神经网络近似;行为选择策略;Q学习算法;集成仿真平台
摘要: 交通运输的快速发展给人们的生活带来极大便利的同时,也产生了一系列的交通问题,交通拥挤已经成为制约城市可持续发展的瓶颈。新修和扩建道路可以提高路网通行能力,从而缓解交通拥挤,但是受到城市土地资源的限制。优化交通控制可以减少非饱和交通流的交通延误。现有的自适应控制模型采用启发式算法进行优化,只能得到局部最优解。随着人工智能领域的发展,智能算法具有更强的适应性和泛化能力,为改善交通控制模型提供了机遇。
  本文采用强化学习理论建立自适应交通控制模型。首先介绍了强化学习的原理,重点介绍了Q学习算法和基于神经网络逼近的强化学习算法。然后以延误作为信号交叉口配时方案的评价指标,建立了以延误最小为优化目标的模型,包括基于状态离散的在线Q学习模型和基于神经网络逼近的在线Q学习模型。前者采用矩阵存储值函数,通过对交通流状态的离散克服“维数灾难”难题,离散处理也相当于是一种泛化。后者采用多个结构相同的前馈神经网络分别逼近行为值函数,实现对未知交通流状态的估计,具有更好的泛化能力。
  构建了结合Vissim、 Excel VBA和Matlab的集成仿真平台对这两个模型的性能进行了验证。仿真结果表明这两个模型均可以得到收敛的Q值矩阵,和各交通流状态下最优的信号配时方案。基于神经网络逼近的在线Q学习模型在延误指标上优于基于状态离散的在线Q学习模型。因此结合神经网络的强化学习模型能够改善交通控制的性能。
作者: 王铁鹏
专业: 交通运输工程(交通运输规划与管理)
导师: 卢守峰;李维汉
授予学位: 硕士
授予学位单位: 长沙理工大学
学位年度: 2017
正文语种: 中文
检索历史
应用推荐