论文题名: | 强泛化能力的智能交通信号控制系统的研究与实现 |
关键词: | 智能交通信号控制系统;强化学习;强泛化能力 |
摘要: | 近年来,交通拥堵问题受到了广泛的关注,优化交通信号控制系统是缓解交通拥堵的重要途径。随着科技发展,传统的交通信号控制策略已经不能满足当今复杂的交通环境,因此需要更灵活的交通信号方法,以更好地满足不断变化的交通状况。由于车联网技术的发展以及交通信号控制(TSC)和强化学习(RL)过程的完美契合,研究人员已经提出了许多高质量的基于强化学习的交通信号控制算法。 尽管强化学习在交通信号控制领域取得了成功,但大部分基于强化学习的方法只解决了单个路网的交通信号控制问题,面对新的路网环境时泛化能力不足,而且由于强化学习的训练时长较长,导致这些方法都耗费较高的计算成本。针对上述问题,本论文提出了基于梯度的元强化学习方法处理集中式交通信号控制。该方法从多个元训练任务中提取元知识,并将积累的元知识用于新任务适应,提高了在新路网环境下的训练效率,极大提升了模型的泛化性。此外,为了解决集中控制的维度灾难问题,本文设计了一种特殊的智能体,通过使用分而治之范式来分解搜索空间。截至目前,本文是第一篇将集中控制方法与元强化学习方法相结合的论文。 为了提升智能体在面对新路网任务时的泛化效率以及降低计算消耗,本文提出了基于上下文变量的元强化学习方法。设计专门的嵌入网络对元训练任务的历史经验进行表征,称此表征为隐含上下文变量,利用上下文变量帮助智能体进行交通相位决策。此外,考虑时空相关性对于交通路网至关重要,本文提出了基于时空特征的上下文元强化学习网络,用于自适应的交通信号控制。具体来说,本文设计了一个具有图注意力网络(GAT)和长短期记忆(LSTM)网络的框架,以获取时空信息,时空特征被精心合并辅助智能体进行交通相位决策。该算法有效地整合了路网任务特有的时空相关性,为模型在泛化性上带来了极大的提升。 除此以外,本文在多个真实路网数据上与其他先进的交通信号控制方法进行了性能对比实验,实验结果证明了:本文的方法能够成功地推广到未曾见过的路网,与其他先进方法相比,本文方法在控制效率以及泛化性上都有极大的优势。同时本文还进行了消融实验证明所提出方法各个部分的不可或缺性。 最后,本文在上述算法基础上,设计并完成了智能交通信号控制系统的泛化拓展模块。 |
作者: | 任艳宇 |
专业: | 软件工程 |
导师: | 吴佳 |
授予学位: | 硕士 |
授予学位单位: | 电子科技大学 |
学位年度: | 2023 |