论文题名: | 基于强化学习的驾驶员车辆路径选择过程研究 |
关键词: | 汽车驾驶员;交通诱导;路径选择;强化学习 |
摘要: | 近年来智能交通被广泛应用于解决交通拥堵问题,但是发布的诱导信息是否有效、是否会产生交通震荡,取决驾驶员对诱导信息的反应。驾驶员在面临诱导信息进行路径选择时,可以选择接受诱导信息,也可以选择拒绝接受诱导信息,这是一个博弈的过程,又因对驾驶员路径选择影响最大的因素是上一次策略选择收益,收益较好时,策略被强化,否则被弱化,这符合强化学习理论的思想,且驾驶员会存在预期收益,策略概率选择大小取决于预期收益与实际收益的差值,另外,现实中驾驶员对其他驾驶员的策略选择信念无法取得,因此本文在博弈论的基础上,应用强化学习理论思想,以驾驶员预期收益与实际收益的差值更新策略的概率,研究驾驶员在面临诱导信息时的路径选择过程,旨在为交通管理者发布诱导信息提供依据。 本文首先研究基于强化学习理论的驾驶员路径策略选择过程。建立了基于强化学习理论的交通诱导模型,详细论述了模型的博弈过程,并通过仿真基于无诱导信息条件下、基于强化学习诱导信息条件下、基于信念学习诱导信息条件下驾驶员路径选择过程,验证诱导信息发布的有效性。 然后基于建立的强化学习理论交通诱导模型,进一步研究了路网环境变化时对驾驶员路径策略选择过程产生的影响。主要通过改变路网流量、初始接受诱导比例两个因素,分析其对驾驶员路径选择过程产生的影响,当路网流量变化时,管理者应将诱导信息的可信度提高至50%~60%,可以使诱导信息被充分利用,且不会导致拥堵漂移,能够有效缓解交通拥堵;当改变初始接受诱导比例时,当路网流量占通行能力的85%及以上时发布诱导信息,即当路网开始拥堵时,诱导信息能快速发挥作用,缓解道路上交通拥堵,提高道路通行能力。 最后研究了强化学习理论交通诱导模型自身参数变化对驾驶员车辆路径选择过程产生的影响。主要研究了期望支付调整速度、初始接受概率两个参数变化时,对驾驶员路径选择过程产生的影响。当期望支付调整速度改变时,期望支付调整速度取值较小时,模型的使用效果更好,诱导效果更加明显,道路通行能力能够得到快速提升;当初始接受比例改变时,局中人对各个策略的初始接受概率相等时模型的诱导效果相较于对某一个策略有喜好时较差,即驾驶员对某一策略有偏好时,模型的使用效果更好,也符合现实生活驾驶员不是一层不变的,而是会分成各种类型。 |
作者: | 高王翠 |
专业: | 交通运输工程 |
导师: | 彭勇;方曾利 |
授予学位: | 硕士 |
授予学位单位: | 重庆交通大学 |
学位年度: | 2017 |
正文语种: | 中文 |