当前位置: 首页> 学位论文 >详情
原文传递 基于异策与同策强化学习的混合动力汽车能量管理研究
论文题名: 基于异策与同策强化学习的混合动力汽车能量管理研究
关键词: 混合动力汽车;能量管理策略;深度强化学习;预训练;好奇心驱动探索
摘要: 能量管理策略是混合动力汽车的核心控制逻辑,需综合考虑驾驶员转矩需求、车辆性能约束等因素,实现动力源优化组合和能量源特性互补。本文以并联同轴式混合动力汽车作为研究对象,开展了以深度强化学习为核心的学习型能效优化方法研究,并建立了基于异策与同策深度强化学习算法的混合动力汽车能量管理设计方法。主要完成的工作如下:
  首先,以同轴并联式混合动力汽车作为研究对象,采用后向建模方法,建立了后向式整车纵向动力学模型,以及关键部件发动机、电机和动力电池等数学模型。基于典型的离线全局最优控制方法—动态规划(DP)算法,构建了具有全局最优性质的混合动力汽车能量管理策略,并将该控制方法的结果作为下文其它能量管理策略的参考标准。
  其次,基于两种异策的深度强化学习方法:深度Q网络(DQN)和深度确定性梯度策略(DDPG),完成了混合动力汽车能量管理策略设计和仿真分析。结果表明,与基于DQN的能量管理策略相比,基于DDPG的能量管理策略可以获得更佳的燃油经济性,同时该算法训练过程波动较小,更加平稳,获得更加稳定的控制策略;为了提高算法训练速度,引入预训练方法,构建了基于预训练的DDPG(DDPG-P)能量管理策略,与基于DDPG的能量管理策略相比,可以在保证燃油经济性的基础上,实现算法的快速收敛。
  然后,基于同策的深度强化学习方法:AsynchronousAdvantageActor-Critic(A3C),完成了基于A3C的能量管理策略设计和仿真分析。结果表明,与基于AdvantageActor-Critic(A2C)的能量管理策略相比,其可以获得更快的算法收敛速度;另外,为了避免其在探索过程中陷入局部最优解,引入了好奇心驱动探索方法,构建了基于好奇心的A3C(A3C-C)能量管理策略,与基于A3C的能量管理策略相比,其不仅可以获得更佳的燃油经济性,还可以进一步提高算法的收敛速度。
  最后,基于在线局部最优控制方法—模型预测控制(MPC)算法,构建了具有局部最优性质的混合动力汽车能量管理策略。在不同驾驶工况下,将基于DP的能量管理策略、基于DDPG-P的能量管理策略、基于A3C-C的能量管理策略和基于MPC的能量管理策略等四种策略进行比较,分析其适应性。结果表明,在不同驾驶工况下,基于A3C-C的能量管理策略均可以获得更佳的适应性,表明其具有更佳的优越性。
作者: 薛源
专业: 车辆工程
导师: 周健豪
授予学位: 硕士
授予学位单位: 南京航空航天大学
学位年度: 2022
检索历史
应用推荐