详情

当前位置：首页> 学位论文 >详情

原文传递单交叉口配时优化的函数逼近型强化学习模型

论文题名：	单交叉口配时优化的函数逼近型强化学习模型
关键词：	交通运输;BP神经网络近似;行为选择策略;Q学习算法;集成仿真平台
摘要：	交通运输的快速发展给人们的生活带来极大便利的同时，也产生了一系列的交通问题，交通拥挤已经成为制约城市可持续发展的瓶颈。新修和扩建道路可以提高路网通行能力，从而缓解交通拥挤，但是受到城市土地资源的限制。优化交通控制可以减少非饱和交通流的交通延误。现有的自适应控制模型采用启发式算法进行优化，只能得到局部最优解。随着人工智能领域的发展，智能算法具有更强的适应性和泛化能力，为改善交通控制模型提供了机遇。　　本文采用强化学习理论建立自适应交通控制模型。首先介绍了强化学习的原理，重点介绍了Q学习算法和基于神经网络逼近的强化学习算法。然后以延误作为信号交叉口配时方案的评价指标，建立了以延误最小为优化目标的模型，包括基于状态离散的在线Q学习模型和基于神经网络逼近的在线Q学习模型。前者采用矩阵存储值函数，通过对交通流状态的离散克服“维数灾难”难题，离散处理也相当于是一种泛化。后者采用多个结构相同的前馈神经网络分别逼近行为值函数，实现对未知交通流状态的估计，具有更好的泛化能力。　　构建了结合Vissim、 Excel VBA和Matlab的集成仿真平台对这两个模型的性能进行了验证。仿真结果表明这两个模型均可以得到收敛的Q值矩阵，和各交通流状态下最优的信号配时方案。基于神经网络逼近的在线Q学习模型在延误指标上优于基于状态离散的在线Q学习模型。因此结合神经网络的强化学习模型能够改善交通控制的性能。
作者：	王铁鹏
专业：	交通运输工程（交通运输规划与管理）
导师：	卢守峰;李维汉
授予学位：	硕士
授予学位单位：	长沙理工大学
学位年度：	2017
正文语种：	中文

相关文献

检索历史

应用推荐