论文题名: | 交通流系统的时滞补偿控制器设计 |
关键词: | 交通流系统;时滞补偿控制;反步法;强化学习 |
摘要: | 由于与环境污染和城市拥堵等其他重要问题有关,车辆交通正引起越来越多的科学兴趣。从经济和社会的角度来看,车辆流量的合理规划和管理是现代社会的重要课题,越来越多的项目旨在监测和优化道路交通的质量。车辆交通不仅是一个工程问题,而且是一个具有挑战性的数学问题。本文将通过Aw-Rascle-Zhang模型来描述宏观交通流系统,基于这种偏微分系统的控制方式有边界控制和域内控制两种方式。边界控制主要是通过静态交通设施,比如,可变限速装置、匝道管制等。域内控制则是通过控制交通流中带有自适应巡航控制系统的车辆来实现。宏观交通流的控制依赖数据的收集和处理,这意味着设计域内控制器的时候不得不考虑控制器的输入时滞。宏观交通流的控制问题实际上是针对带输入时滞的高阶非线性偏微分系统设计控制器。 针对上述问题,传统的固定增益的状态反馈控制器难以到达理想的控制效果,需要更加复杂的增益形式的控制器来控制交通流系统,本文提出了基于Backstepping方法和强化学习方法的控制器设计思路。本文使用的二阶Aw-Rascle-Zhang混合交通流模型来描述交通波现象。基于Backstepping的控制器反馈状态的增益为核函数的形式,是随空间变化而变化的,通过将原系统映射到稳定的目标系统来求解变换的核函数。基于强化学习的控制器反馈状态的增益是动态的,其增益为神经网络的输出值,通过神经网络来动态优化增益。本文的研究内容包括以下两个方面: 1.针对具有输入时滞的非线性二阶交通流模型,采用Backstep-ping方法设计了域内时滞补偿控制器。由于对交通流模型进行线性化和对角化后得到了一个带有动态边界的线性双曲偏微分模型,通过运输方程,将带有显式时滞的偏微分系统转换为不含显式时滞的偏微分级联系统。利用Backstepping变换,将原系统映射到L2范数下指数稳定的目标系统,并对核函数求解。根据核函数的解可以得出域内控制器。核函数是关于空间的函数,因此控制器的增益是空间分布的。最后通过逆变换和Lyapunov稳定性分析证明了原闭环系统具有L2范数下的指数稳定性。通过数值仿真验证了控制器对带输入时滞的非线性系统的有效性。 2.基于Backstepping设计的控制器的结构包括状态反馈和控制器历史输出反馈,强化学习采用同样的控制器结构,但是状态反馈的增益是通过神经网络来拟合。相较于传统的控制器设计方法,这种方法具有计算简单,鲁棒性强的特点,且不依赖模型,因为强化学习的方法是通过与被控系统交互来探索控制策略。由于增益是动态的,是一个连续的变量,因此,本文采用结合了Actor-Critic方法的近端策略优化算法来拟合增益,并且动态增益带来的控制效果理论上要明显优于固定增益的控制器。通过数值仿真,验证了闭环系统对不同的输入时滞具有较强的鲁棒性。同时通过对状态加上阶跃扰动、对参数加上高斯噪声以及采用不同的参数这三种情况分别来验证预训练模型的鲁棒性。 |
作者: | 莫舒荣 |
专业: | 控制科学与工程 |
导师: | 齐洁 |
授予学位: | 硕士 |
授予学位单位: | 东华大学 |
学位年度: | 2022 |