论文题名: | 基于多智能体强化学习的公交速度控制策略研究 |
关键词: | 公交车辆;速度控制;车头时距;载客均衡;多智能体强化学习;近端策略优化 |
摘要: | 随着我国经济高速发展和城镇化进程的加快,机动车保有量急剧增加,由此而产生的交通拥堵和环境污染等问题日益严重。实施“公交优先”发展战略,可有效缓解城市交通问题,改善城市客运系统环境。受道路交通、客流需求等诸多因素影响,公交车辆运行极不稳定甚至出现“串车”现象,对公交运行效率、可靠性以及行业高质量发展产生不利影响。解决该问题的常用方法是引入静态和动态控制策略,以往策略主要考虑当前车头时距与时刻表的局部信息,忽略了整个公交车队的全局协调及其长期效果。基于此,本文提出了一种多智能体强化学习模型来开发动态且灵活的公交速度控制策略。该模型将每辆公交车设置为一个智能体,其不仅与前车和后车进行协调优化,而且还与车队中的其他车辆进行信息交互。 分析公交运行环境,并对其中的主体要素进行模型化抽象。对强化学习算法进行阐述与分析,筛选出与本文研究问题相匹配的算法框架,进而选取本文的基础算法——近端策略优化算法(ProximalPolicyOptimization,PPO),在此基础上构建公交车队模型并对公交运行仿真实验流程进行设计,为后续的模型构建及仿真验证提供基础。 推演分析公交运行过程中造成车头时距紊乱的原因,提出考虑稳定车头时距的速度控制策略。介绍PPO算法并将其扩展为多智能体近端策略优化算法(Multi-AgentProximalPolicyOptimization,MAPPO),在此基础上建立MAPPO速度控制策略模型。设计仿真对比实验,将速度控制策略与无控制策略和简单驻站控制策略进行效果对比,验证模型的有效性。 针对稳定车头时距速度控制策略存在的不足——车辆减速行为过多导致站点候车乘客不能被及时运载,对车辆载客数量不均衡的原因进行推演分析,提出考虑期望载客均衡的速度控制策略。在MAPPO模型的基础上引入Monitor神经网络,提出带有Monitor神经网络的多智能体近端策略优化算法(Multi-AgentProximalPolicyOptimizationwithMonitor,MAPPO-M),建立MAPPO-M速度控制策略模型。设计仿真对比实验,将其与MAPPO模型的结果做对比分析,验证该模型改进的必要性与有效性。 |
作者: | 李煜 |
专业: | 交通运输 |
导师: | 刘华胜 |
授予学位: | 硕士 |
授予学位单位: | 吉林大学 |
学位年度: | 2023 |