主权项: |
1.一种汽车能量控制方法,其特征在于,包括: 预测未来时间段[k,k+p-1]内汽车变速箱的需求功率Preq(k+jj),其中,jj=0,1,…,p-1,k为当前时刻,p取正整数; 计算所述未来时间段[k,k+p-1]内汽车的状态向量X(k+jj); 通过动态规划算法和即时差分学习算法,计算汽车在当前时刻k的控制向量U(k),并将所述控制向量U(k)输出给汽车。 2.如权利要求1所述的汽车能量控制方法,其特征在于,所述计算所述未来时间段[k,k+p-1]内汽车的状态向量X(k+jj),包括: 根据汽车变速箱的需求功率Preq(k+jj)计算所述未来时间段[k,k+p-1]内汽车变速箱的需求转矩Treq(k+jj)和车速v(k+jj),计算电池荷电状态SOC(k+jj),得到状态向量X(k+jj)=(Treq(k+jj),v(k+jj),SOC(k+jj))T。 3.如权利要求1或2所述的汽车能量控制方法,其特征在于,所述通过动态规划算法和即时差分学习算法,计算汽车在当前时刻k的控制向量U(k),包括: 判断即时差分学习算法在上一时刻的误差指标是否大于预设阈值; 若是,则结合动态规划算法和即时差分学习算法,计算汽车在当前时刻k的控制向量U(k); 若否,则通过即时差分学习算法,计算汽车在当前时刻k的控制向量U(k)。 4.如权利要求3所述的汽车能量控制方法,其特征在于,所述结合动态规划算法和即时差分学习算法,计算汽车在当前时刻k的控制向量U(k),包括: 通过动态规划算法,计算控制域C内的最优控制向量序列[U0(k),…,UC-1(k+C-1)],并将计算出的第一个控制向量U0(k)假定为当前时刻k的假定控制向量U0(k);采用即时差分学习算法根据汽车当前时刻k的状态向量X(k),在控制域C内预测当前时刻k的预测控制向量U1(k),其中,所述控制域C=p; 根据所述假定控制向量U0(k)和预测控制向量U1(k)计算所述即时差分学习算法当前时刻k的误差指标; 若当前时刻k的误差指标大于所述预设阈值,则将所述假定控制向量U0(k)作为所述汽车在当前时刻k的控制向量U(k); 若当前时刻k的误差指标小于或等于所述预设阈值,则将所述预测控制向量U1(k)作为所述汽车在当前时刻k的控制向量U(k)。 5.如权利要求4所述的汽车能量控制方法,其特征在于,所述采用即时差分学习算法根据汽车当前时刻k的状态向量X(k),在控制域C内预测当前时刻k的预测控制向量U1(k),包括: 初始化当前时刻k的所述即时差分学习算法,初始化训练次数ii=0; 计算当前时刻k的即时差分序列; 计算当前时刻k的预测控制向量U1(k)对权值向量的各分量的梯度; 计算所述权值向量的各分量的增量; 更新所述权值向量的各分量; 判断当前时刻k的训练次数是否小于所述动态规划算法的控制域C; 若是,更新训练次数为ii=ii+1,重新计算当前时刻k的即时差分序列; 若否,输出当前时刻k的权值向量;根据获取到的汽车当前时刻k的状态向量X(k),和所述当前时刻k的权值向量计算当前时刻k的预测控制向量U1(k)。 6.如权利要求5所述的汽车能量控制方法,其特征在于,所述输出当前时刻k的权值向量之后,还包括:若当前时刻k的误差指标小于或等于所述预设阈值,将所述即时差分学习算法在当前时刻的误差指标设置为等于所述预设阈值。 7.一种汽车能量控制装置,其特征在于,包括: 预测单元,用于预测未来时间段[k,k+p-1]内汽车变速箱的需求功率Preq(k+jj),其中,jj=0,1,…,p-1,k为当前时刻,p取正整数; 状态向量计算单元,用于计算所述未来时间段[k,k+p-1]内汽车的状态向量X(k+jj); 控制向量计算单元,用于通过动态规划算法和即时差分学习算法,计算汽车在当前时刻k的控制向量U(k),并将所述控制向量U(k)输出给汽车。 8.如权利要求7所述的汽车能量控制装置,其特征在于,所述控制向量计算单元,包括: 判断模块,用于判断即时差分学习算法在上一时刻的误差指标是否大于预设阈值; 控制向量第一计算模块,用于若是,则结合动态规划算法和即时差分学习算法,计算汽车在当前时刻k的控制向量U(k); 控制向量第二计算模块,用于若否,则通过即时差分学习算法,计算汽车在当前时刻k的控制向量U(k)。 9.一种汽车能量控制的终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至6任一项所述方法的步骤。 10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至6任一项所述方法的步骤。 |