详情

原文传递基于分层强化学习的混合动力汽车能量管理策略研究

论文题名：	基于分层强化学习的混合动力汽车能量管理策略研究
关键词：	混合动力汽车;能量管理;动态规划;分层强化学习
摘要：	随着汽车工业的快速发展，能源短缺和环境污染的问题日益严重，新能源汽车成为了新的研究热点。混合动力汽车因具有续航里程长，油耗少和排放低的优点，逐渐成为了研究的重点。能量管理策略是整车控制系统的核心，通过控制需求功率的分配来改善整车油耗和排放。本文以P2构型混合动力汽车为研究对象，针对目前混合动力汽车的能量管理策略的一些问题，结合深度强化学习（Deep Reinforcement Learning，DRL）和自适应等效能耗最小策略（adaptive equivalent consumption minimization strategy，A-ECMS）提出了基于分层强化学习的混合动力汽车能量管理策略。为强化学习用于能量管理策略的实时优化提供了思路，也为强化学习安全用于实车的控制提供了方法。　　首先，在MATLAB软件中对整车各关键部件进行仿真建模，主要包括动力总成、发动机、电动机和电池的建模以及模型约束。建立基于规则和基于动态规划的能量管理策略来作为比较基准，基于规则的能量管理策略在工况FTP75上的百公里等效油耗为8.199L，基于动态规划的为7.605L。　　其次，搭建基于电池SOC反馈的A-ECMS能量管理策略与基于深度强化学习的能量管理策略，将基于深度强化学习的能量管理策略在工况FTP75上训练至收敛。基于电池SOC反馈的A-ECMS能量管理策略在工况FTP75上的百公里等效油耗为7.660L，基于深度强化学习的为7.640L，同基于规则的比较，等效油耗均有明显的降低，基于深度强化学习的SOC曲线比基于规则的有明显的改善。　　然后，融合深度强化学习与A-ECMS的优点和分层的思想提出了基于分层强化学习的混合动力汽车能量管理策略。该策略将能量管理问题分为上下两层求解，上层是基于电池SOC反馈的PID控制器和以PID控制器输入为状态之一的DDPG控制器，经过动作耦合器将两个控制器输出等效因子融合成一个，并输送给下层的ECMS控制器。通过对奖励值分析，所提出的策略能在深度强化学习的基础上学习效率提升48.39%，动作优化上提升7.53%。基于分层强化学习的混合动力汽车能量管理策略能够很好的满足动力性要求和在一个工况结束后将电池SOC维持在目标值附近。在等效油耗上，百公里等效油耗为7.608L，与基于动态规划的能量管理策略相比，仅相差0.003L，同基于规则的能量管理策略相比油耗减少了7.21%，比基于深度强化学习的少了0.032L，比基于A-ECMS的少了0.052L。　　最后，为验证所提出控制策略的适用性，将训练好的策略用于新的NEDC工况上进行验证，虽然是第一次接触这个工况，但百公里等效油耗仅为7.675L，同基于规则的比油耗减少了2.90%，比基于动态规划的多了0.036L，比基于DDPG的少了0.094L，比基于A-ECMS的少了0.211L，仅次于动态规划，验证了所提出的基于分层强化学习的混合动力汽车能量管理策略具有良好的适用性。为验证整个系统的稳定性，从软件问题导致的异常输出和硬件损坏无输出两方面进行了模拟，验证结果与正常情况下的基于分层强化学习的控制结果有一定的差距，但无论是在电池SOC还是等效油耗上均优于基于规则的能量管理策略，验证了整个控制系统的稳定性。
作者：	庞玉涵
专业：	车辆工程
导师：	赖晨光;胡博
授予学位：	硕士
授予学位单位：	重庆理工大学
学位年度：	2022