当前位置: 首页> 学位论文 >详情
原文传递 基于知识与机理增强强化学习的智能车辆决策与控制
论文题名: 基于知识与机理增强强化学习的智能车辆决策与控制
关键词: 智能车辆;驾驶决策;强化学习;反步优化控制;自动驾驶
摘要: 实现完全自动驾驶是构建自主可控的智能汽车技术创新体系的重要战略任务和最终目标。目前汽车行业智能汽车的研发,主要采用基于规则或者基于模型的方法,通过实验标定和场景验证进行算法开发,存在需要验证的场景多,标定和验证时间长,难以覆盖用户实际的使用工况和场景并满足智能汽车开发周期的需要等问题。可以看到,L4-L5级别的智能车辆在面对难以在开发阶段全部验证的复杂多变驾驶场景时,需要具备自学习、自适应的算法更新能力。融合智能学习技术的智能决策和控制方法是实现上述学习自适应性能的核心技术。
  复杂动态场景下自动驾驶车辆合理决策和安全控制是目前主要的挑战。由于决策问题抽象难以建模、运动控制系统具备强非线性且安全关键的特性,导致系统难以在复杂场景中自适应决策、难以保证在变化工况下的安全及自适应控制性能。强化学习作为典型的智能交互学习技术,可有效通过环境反馈信息学习系统控制策略,被认为是实现智能决策和控制自学习能力进而增强系统性能的有效方法。然而现有强化学习算法在学习效率与稳定性、学习过程中的安全性等方面尚不具备性能优势。在此情况下,本文以提高学习效率和保证学习安全为研究目标,围绕如何有效利用系统知识与机理信息增强强化学习算法性能,面向动态场景下智能车辆自适应决策与控制问题的方法应用,开展如下研究:
  首先,面向动态场景的车辆纵向驾驶策略自适应学习需求,提出了结合搜索评价与引导的策略提升强化学习算法。建立了匹配实车参数的仿真学习环境,基于策略梯度算法,借助系统知识对算法和问题进行分析,通过对策略搜索方向的评价与引导,保证了策略性能有效稳定的提升,解决了无模型算法学习效率低以及稳定性差的问题。采用基于高效在线学习系统的方式代替目前基于规则或者基于模型的开发方案,解决了动态场景下车辆纵向驾驶策略研究中需要对所有潜在工况标定控制参数或精确建模的难题,实现了系统控制策略跟随动态场景的自适应学习调整。仿真和实车实验结果有效验证了该方法对于未训练场景具有泛化性能、对于动态场景具有自适应学习性能、在实车平台具有实时在线应用性能。
  其次,针对场景工况变化引起模型不确定性的情况,车辆横向运动学习控制的状态约束需求难以始终满足的难题,提出了基于障碍李雅普诺夫函数的安全强化学习算法。本文在完善反步优化设计方法的基础上,基于模型建立了可分层学习的系统架构,引入障碍李雅普诺夫函数考虑约束条件,设计可自适应学习的安全控制律解析形式;结合自适应动态规划方法,设计辅助函数,推导学习部分更新方程,解决了现有强化学习方法在学习过程中缺乏安全保证的难题。车辆位置状态约束在学习过程中的持续保证有效限制了模型参数存在不确定性时车辆位置状态的范围,解决了车辆横向运动控制的工况适应性问题,使其在变化场景工况中具备一致的安全控制性能,对于场景工况变化引起的模型参数变化具有学习自适应性能。通过李雅普诺夫方法证明了考虑安全约束控制稳定性及优化学习收敛特性的最终一致有界性。
  然后,同样针对动态场景下,拓展性研究始终满足全部系统状态约束的车辆横纵向运动学习控制,为解决学习更新时存在安全性能无法满足的难题,提出了自适应安全强化学习方法。该方法在基于障碍李雅普诺夫函数的安全强化学习算法基础上,引入非对称障碍李雅普诺夫函数考虑非对称形式的状态约束条件。基于李雅普诺夫稳定性分析,将安全性能和优化性能之间冲突情况构建为学习更新中的不等式约束,设计约束自适应算法,保证了所有状态变量始终在安全约束区间内最终一致有界收敛。因此当场景工况变化引起模型不确定性时,基于此方法进行车辆横纵向运动控制,可同时有效限制车辆位置以及速度状态在约束范围内,更好地解决了动态场景工况适应性问题,避免了模型失配时系统状态进入非安全区域,导致运动失稳、控制失效的问题。
  最后,面向复杂场景下自适应交互行为的决策难题,构建基于行为参数的精确驾驶决策方式,其有效地自适应定义了不同场景下的决策问题,形成了基于是否换道、加减速行为及动作时间行为参数组合而成的混杂决策空间,提出了嵌入数据模型和优化算法的强化学习决策方法。有效利用系统架构中的下层策略执行控制器特性数据训练神经网络模型,使用直接搜索优化算法求解中微观驾驶行为,在决策求解层面降低了问题的复杂度,因此提高了基于混杂决策空间学习算法效率。通过优化算法的在线求解能力实现了变化场景下的交互决策。
  本文所述的智能车辆控制和决策相关研究,利用知识和机理信息设计了具备自学习能力的决策与控制算法,通过对强化学习中动作搜索方法以及策略迭代更新方式的设计,提高了学习效率、保证了学习安全,解决了智能车辆对于动态场景和变化工况的自适应难题。所提出方法的有效性分别通过仿真、实车实验进行了明确有效的验证。本研究对于未来L4-L5级别的智能车辆实现用户端软件驾驶策略的自适应迭代更新,满足智能车辆控制算法开发周期要求,应用场景具有重要意义和作用。
作者: 张羽翔
专业: 车辆工程
导师: 高炳钊
授予学位: 博士
授予学位单位: 吉林大学
学位年度: 2022
检索历史
应用推荐