论文题名: | 近似动态规划的非线性多输入多输出与优化控制研究 |
关键词: | 非线性系统;多输入多输出;近似动态规划;李雅普诺夫;柴油机怠速缸;优化控制 |
摘要: | 近似动态规划是近年来发展起来的一种优化控制方法。它采用动态规划的基本理论,吸取了强化学习、人工神经网络、计算机仿真等领域的理论与成果,成功地解决了动态规划的“维数灾”问题,特别适用于以某一性能指标最小化为目标的优化控制问题。2007年,IEEE协会在夏威夷召开了第一届以近似动态规划与强化学习为主题的国际会议,宣告了近似动态规划的重要地位。目前,近似动态规划已经在一些领域中获得了成功的应用,并有三种主要类型。其中,执行依赖启发式动态规划是应用最为广泛的一种,因为它不需要被控对象的数学模型。然而无论在理论还是应用上,近似动态规划都还不够完善,特别是在非线性多输入多输出系统的控制问题上研究得更少,而实际系统又多为非线性多输入多输出形式,所以这是应用近似动态规划之前,必须深入研究的一个重要课题。 本文的主要目的是研究非线性多输入多输出近似动态规划推导的数学基础;根据实际对象归纳出四种典型的非线性多输入多输出形式,对应系统地提出四种非线性多输入多输出执行依赖启发式动态规划及其在线学习算法;并证明其稳定与收敛性能;最后分别采用实时仿真与实验,研究了推导与证明过程的正确性、以及这四种方法的优化控制应用。 本文采用数学推导证明、数值仿真与实验相结合的方法来研究非线性多输入多输出近似动态规划。基于反证法证明了复合矩阵/向量函数的求导不一定满足链式法则,并研究出其数学解决方法;从而构建与推导出四种非线性多输入多输出执行依赖启发式动态规划及其在线学习算法;采用李雅谱诺夫稳定性理论证明了这些方法的稳定与收敛性能;仿真与实验充分考虑了这些方法的特点,能实时实验这些方法的控制应用及性能指标。 对非线性多输入多输出近似动态规划推导的数学基础研究表明,除两种特殊情况以外,复合矩阵/向量函数的求导不一定满足链式法则。因此在非线性多输入多输出近似动态规划学习算法的推导过程中仅采用标量对标量的求导,以确保其具有严密的数学基础。 对四种典型系统的非线性多输入多输出执行依赖启发式动态规划及其在线学习算法的研究表明,根据上述数学解决方法,以标准执行依赖启发式动态规划的网络结构及其学习算法为基础: (1)将标准近似动态规划的执行网络输出层扩展为多输出,可推出执行网络扩展方法的非线性多输入多输出执行依赖启发式动态规划。该方法的计算量较小,适用于各执行输出属于同一数量级,而各输入变量之间不具有函数关系的场合。 (2)将标准近似动态规划的执行网络根据控制变量的数目复制为多份,多份执行网络组成并联结构,可推出子网方法的非线性多输入多输出执行依赖启发式动态规划。该方法能解决多输出变量不属于同一数量级或者数值差别较大的问题,但增加了一些计算量。子网方法的多个执行网络应当在同一时间步长内学习和更新权值,以防止学习算法的混叠。 (3)将标准近似动态规划的执行网络根据控制变量的数目复制为多份,多份执行网络组成串联结构,可推出级联执行网络方法的非线性多输入多输出执行依赖启发式动态规划。该方法适用于多输入变量之间具有函数关系的场合,同时该方法也利用此函数关系来简化控制器的设计。由于误差的反向传播,其前级执行网络的权值更新计算要比后级执行网络的复杂得多,但本质上可以等效于训练一个多层神经网络的权值。 (4)上述三种方法之中的任意两种或三种相组合,可得到组合方法的非线性多输入多输出执行依赖启发式动态规划,用于控制更加复杂的对象。上述四种方法的前向计算与在线学习算法均不同于标准近似动态规划的,需采用本文提出的前向计算与在线学习算法来求解。 对非线性多输入多输出近似动态规划的稳定与收敛性能研究表明,采用李雅普诺夫直接法可以证明出以平方加权和以及二次型形式定义的效用函数,其非线性多输入多输出执行依赖启发式动态规划具有李雅普诺夫意义下的稳定性,即是收敛的。从而第一次从效用函数的角度证明了非线性多输入多输出执行依赖启发式动态规划的稳定与收敛性能,同时也为效用函数的设计提供了依据。 对非线性多输入多输出近似动态规划的仿真控制研究表明,所推导出的执行网络扩展方法、子网方法以及级联执行网络方法能有效地仿真控制发动机怠速缸平衡或飞行器的纵向俯仰角度,从而证明了这些方法的可行性,以及其前向计算与在线学习算法推导的正确性。其中,执行网络扩展方法在优化发动机怠速缸平衡的控制时不需要检测转速波动来自哪一缸,就能智能地补偿由于器件差异、老化或燃烧情况等导致的一个发动机循环上转速的波动;并且在相同迭代次数时,执行网络扩展方法的控制速度最快,它可能比现有发表结果的收敛速度都要快两倍,其控制精度也比子网方法的高。子网方法的评价网络误差收敛有一个明显的长时间振荡过程,而执行网络扩展方法的则没有。子网方法的评价与执行网络误差收敛到极小值的逼近过程也比执行网络扩展方法的长,相应其达到控制过程最终稳定的迭代次数也要多几倍。对于每100次随机初始化权值的迭代训练,执行网络扩展方法的控制成功率约为10%,而子网方法的控制成功率约为19%。 非线性多输入多输出近似动态规划的实验研究也表明,执行网络扩展方法的近似动态规划控制器不需要检测转速波动来自哪一缸,就能智能地调节四个缸的喷油量来补偿不平衡的燃烧与器件差异等,从而改善WAPS柴油机怠速缸平衡控制效果,证明了近似动态规划控制器在实际工业中也具有一定的控制效果。并且借鉴了基于dSPACE的V实验模式,采用Simulink建模代替了控制方法的编程,从而加速和简化了实验流程,缩短了实验周期,同时为新控制功能的设计提供了图形化的接口。因此本实验也为柴油机怠速缸平衡智能优化控制增添了新的内容。 总之,本文所提出的四种非线性多输入多输出执行依赖启发式动态规划方法几乎可用来求解所有非线性多输入多输出系统的近似动态规划优化控制问题。本文比较系统地研究了这个课题,学者和工程技术人员可参考本文的研究结果,以便在应用近似动态规划时获得更好的控制效果。 |
作者: | 黄志坚 |
专业: | 轮机工程 |
导师: | 马捷;黄河 |
授予学位: | 博士 |
授予学位单位: | 上海交通大学 |
学位年度: | 2013 |
正文语种: | 中文 |