主权项: |
1.一种基于深度强化学习的智能汽车稳定性控制方法,其特征是按如下步骤进行: 步骤1:获取车辆横向控制器决策输出的前轮转角δf以及车辆结构参数,包括:车辆轮距L、质心到前后轴距离Lf和Lr、前后轮侧偏刚度C1和C2、汽车质量m; 获取车辆行驶参数,包括:方向盘转角sw、车速u和路面摩擦系数μ; 步骤2:利用式(1)计算理想横摆角速度wd: 式(1)中,g为重力加速度,w为横摆角速度,并有: 步骤3:利用式(3)计算理想质心侧偏角βd: βd=-min{|β|,|βmax|}·sign(δf) (3) 式(3)中,β为车辆质心侧偏角,βmax为车辆最大质心侧偏角,并有: 步骤4:利用式(6)定义深度强化学习方法的车辆状态参数s: s={w,β,sw,wd,βd} (6) 步骤5:利用式(7)定义深度强化学习方法的动作参数a: a={▽δ,▽M} (7) 式(7)中,▽δ为方向盘修正转角,▽M为附加横摆力矩; 步骤6:利用式(8)建立深度强化学习方法的奖励函数r: r=re+rps+rv+rm+rsw+rst (8) 式(8)中,re为误差奖励函数,并有: re=-▽w2-▽β2+50 (9) 式(9)中,▽w为横摆角速度误差,▽β为质心侧偏角误差,并有: ▽w=w-wd (10) ▽β=β-βd (11) 式(8)中,rps为固定奖励值函数,并有: 式(8)中,rv为速度差奖励函数,并有: 式(8)中,rm为附加横摆力矩奖励函数,并有: 式(8)中,rsw为修正角奖励函数,并有: rsw=-|▽δ|+10 (15) 式(8)中,rst为稳定域奖励函数,并有: rst=-(|▽δ|+|▽M|)/10 (16) 步骤7:构建深度强化学习方法的网络模型: 步骤7.1:构建动作网络模型,包括:包含一个神经元的一层输入层,各自包含n1个神经元的m1层隐藏层,包含2个神经元的一层输出层;初始化动作网络参数为θμ; 步骤7.2:构建评价网络模型,包括:各包含1个神经元的两层输入层,各自包含n2个神经元的m2层隐藏层,其中,第m2层隐藏层为全连接层,包含1个神经元的一层输出层;初始化评价网络参数为θQ; 步骤7.3:构建与所述动作网络模型结构相同的目标动作网络模型,且令目标动作网络参数θμ′=θμ,构建与所述评价网络模型结构相同的目标评价网络模型,且令目标评价网络参数θQ′=θQ; 步骤8:由第i条样本形成N条样本: 初始化第i个车辆状态参数si,并以第i个车辆状态参数si作为所述动作网络模型的输入,由所述动作网络模型输出μ(si|θμ); 利用式(17)得到第i个车辆动作参数ai: ai=μ(si|θμ)+Ni (17) 式(17)中,Ni表示第i个随机噪声; 根据式(8)获取第i个车辆奖励值ri,并得到更新后的第i个车辆状态参数s′i;从而得到获得第i条样本,记为(si,ai,ri,s′i),进而得到N条样本; 步骤9:用所述N条样本对所述深度强化学习方法的网络模型进行训练,从而得到得到最优动作网络模型和最优评价网络模型; 步骤10:判断式(18)和式(19)是否均成立,若均成立,则表示汽车处于稳定状态,否则,表示汽车处于不稳定状态,并执行步骤11: |▽w|≤|ε·wd| (19) 式(18)中,k1为稳定域第一边界系数,k2为稳定域第二边界系数;为质心侧偏角速度; 式(19)中,ε为可调参数; 步骤11:获取车辆当前状态参数st作为最优动作网络模型的输入,从而利用所述最优动作网络模型输出当前附加横摆力矩▽Mt和修正转角▽δt; 步骤12:判断式(20)是否成立,若成立,则表示汽车的转向性质为不足转向,则令动作车轮为内后轮,并执行步骤13,否则,表示汽车的转向性质为过多转向,则令动作车轮为外前轮,并执行步骤14; wd×(w-wd)>0 (20) 步骤13:若δf>0,则令修正转角▽δt的方向向左,若δf<0,则令修正转角▽δt的方向向右; 步骤14:若δf>0,则令修正转角▽δt的方向向右,若δf<0,则令修正转角▽δt的方向向左。 2.根据权利要求1所述的智能汽车稳定性控制方法,其特征是,所述步骤9是按如下过程进行: 步骤9.1:初始化学习率参数为α,回报率参数为γ;初始化i=1; 步骤9.2:以所述第i个车辆状态参数si作为当前第i个动作网络模型的输入,由所述当前第i个动作网络模型输出第i个输出值μ(si|θμ); 以所述第i个车辆状态参数si、第i个车辆动作参数ai和所述动作网络的第i个输出值μ(si|θμ)均作为所述当前第i个评价网络模型的输入,由所述第i个车辆状态参数si和第i个车辆动作参数ai经过所述当前第i个评价网络模型输出第i个输出值Qi(ai);由所述动作网络模型的第i个输出值μ(si|θμ)经过所述当前第i个评价网络模型输出第i个输出值Qi(μ(si|θμ)); 以所述更新后的第i个车辆状态参数s′i作为所述当前第i个目标动作网络模型的输入,由所述当前第i个目标动作网络模型输出第i个输出值μ(s′i|θμ′); 以所述更新后的第i个车辆状态参数s′i和目标动作网络模型的第i个输出值μ(s′i|θμ′)作为所述当前第i个目标评价网络模型的输入,由所述当前第i个目标评价网络模型输出第i个输出值Q′i(a′i); 根据所述当前第i个评价网络模型的第i个输出值Qi(μ(si|θμ))利用策略梯度法对所述当前第i个动作网络模型进行更新,从而得到第i次更新后的动作网络模型并作为第i+1个动作网络模型; 根据当前第i个评价网络模型的输出Qi(ai)以及所述当前第i个目标评价网络模型的输出Q′i(a′i),利用最小化损失函数对所述当前第i个评价网络模型进行更新,从而得到第i次更新后的评价网络模型并作为第i+1个评价网络模型; 步骤9.3:将i+1赋值给i后,判断i>N是否成立,若成立,则表示得到最优动作网络模型和最优评价网络模型,否则,返回步骤9.2执行。 |