详情

原文传递基于多智能体的区域道路交通协同研究与实现

论文题名：	基于多智能体的区域道路交通协同研究与实现
关键词：	交通信号控制;区域协同;多智能体;强化学习;注意力机制
摘要：	当前，我国机动车数量的飞速增长使得交通拥堵问题愈演愈烈，信号灯控制的交叉口是交通拥堵的主要发生地，传统定时的交通信号控制方法无法适应动态变化的交通环境。随着人工智能技术的发展，建立智能化的交通信号控制系统，提高城市道路车辆的通行效率成为当下必然选择。　　首先构建单交叉口信号控制的深度强化学习智能体模型，并设计模型中的状态空间、动作空间、奖赏函数等要素。具体以交叉口入口道上车辆数目、平均速度、信号相位构造交通状态向量，利用交叉口经典的四相位构造动作空间，将延误时间、排队长度、停车次数作为判断信号控制效果优劣的指标来设计奖赏函数，用深度强化学习算法DQN训练模型中的决策神经网络，为了克服实际交通场景下难以获得完整交通状态信息的问题，将LSTM网络引入DQN的网络结构中，为了克服智能体探索效率低，算法收敛速度慢的问题，提出给DQN网络中引入噪声网络，为了验证算法的性能，搭建了基于SUMO的交通信号仿真平台，包括仿真场景设计以及仿真环境设计。通过在不同的交通场景下进行仿真并对比其它方法，结果表明：优化后的算法能够更好地协调交叉口的各个相位，减少了车辆的延误时间、排队长度以及停车次数。　　其次构建区域信号协同控制的多智能体强化学习模型，并对模型中的状态、动作、奖赏要素进行设计。具体以每个交叉口自身的车辆数目、平均速度、信号相位构造局部交通状态向量，所有交叉口的局部交通状态构成全局交通状态，每个交叉口的动作空间都为经典的四相位，利用延误时间、排队长度、停车次数设计局部奖赏函数，所有交叉口的局部奖赏构成全局奖赏，为了克服传统多交叉口信号控制方法存在维度爆炸的问题，本文引入集中式训练、分布式执行的学习模式，并用协作关系下的多智能体强化学习算法Qmix训练模型中的决策神经网络，为了解决Qmix难以准确的表达区域中每个交叉口的局部价值对全局价值贡献大小的问题，通过对局部价值跟全局价值之间的关系进行研究分析，并利用注意力机制中的注意力权重来动态的学习局部价值跟全局价值之间的关系，从而体现出每个交叉口对全局的重要程度。通过在不同的交通场景下进行仿真并对比其它六种控制方法，结果表明：优化后的算法能够更好的协同所有的交叉口，减少了整个区域车辆的延误时间、排队长度以及停车次数，有效提升了车辆的通行效率。　　最后借助Pycharm、Qt designer等工具编程实现了交通信号协同软件，该软件将本文研究的算法集成在图形界面下，可以直接通过操作界面来对算法的实际控制效果进行测试。结果表明：本文所研究的交通信号控制算法能够有效的改善交通拥堵状况，达到了预期的研究目标。
作者：	任洋洋
专业：	电子信息
导师：	任安虎;郭威
授予学位：	硕士
授予学位单位：	西安工业大学
学位年度：	2023