当前位置: 首页> 交通专利数据库 >详情
原文传递 一种基于深度强化学习的智能汽车稳定性控制方法
专利名称: 一种基于深度强化学习的智能汽车稳定性控制方法
摘要: 本发明公开了一种基于深度强化学习的智能汽车稳定性控制方法,其步骤包括:1获取汽车横向控制器的决策输出和车辆结构参数、行驶参数;2定义深度强化学习方法的状态参数、动作参数和奖励函数;3构建并训练深度强化学习方法的网络模型,得到最优动作网络模型;4获取汽车当前状态参数st,从而利用所述最优动作网络模型输出当前附加横摆力矩▽Mt和修正转角▽δt;5判断汽车稳定状态;6根据汽车转向性质和方向盘转角方向确定当前修正转角▽δt的方向和当前附加横摆力矩▽Mt的动作车轮。本发明能实现稳定工况和极限工况下直接横摆力矩控制和转向控制之间的最优协调控制规律,从而实现车辆稳定性控制,保证驾乘人员的安全性和舒适性。
专利类型: 发明专利
国家地区组织代码: 安徽;34
申请人: 合肥工业大学
发明人: 黄鹤;郭伟锋;张炳力;张润;王博文;吴润晨;程进
专利状态: 有效
申请日期: 2019-08-29T00:00:00+0800
发布日期: 2019-11-15T00:00:00+0800
申请号: CN201910809910.7
公开号: CN110450771A
代理机构: 安徽省合肥新安专利代理有限责任公司
代理人: 陆丽莉;何梅生
分类号: B60W10/18(2012.01);B;B60;B60W;B60W10
申请人地址: 230009安徽省合肥市包河区屯溪路193号
主权项: 1.一种基于深度强化学习的智能汽车稳定性控制方法,其特征是按如下步骤进行: 步骤1:获取车辆横向控制器决策输出的前轮转角δf以及车辆结构参数,包括:车辆轮距L、质心到前后轴距离Lf和Lr、前后轮侧偏刚度C1和C2、汽车质量m; 获取车辆行驶参数,包括:方向盘转角sw、车速u和路面摩擦系数μ; 步骤2:利用式(1)计算理想横摆角速度wd: 式(1)中,g为重力加速度,w为横摆角速度,并有: 步骤3:利用式(3)计算理想质心侧偏角βd: βd=-min{|β|,|βmax|}·sign(δf) (3) 式(3)中,β为车辆质心侧偏角,βmax为车辆最大质心侧偏角,并有: 步骤4:利用式(6)定义深度强化学习方法的车辆状态参数s: s={w,β,sw,wd,βd} (6) 步骤5:利用式(7)定义深度强化学习方法的动作参数a: a={▽δ,▽M} (7) 式(7)中,▽δ为方向盘修正转角,▽M为附加横摆力矩; 步骤6:利用式(8)建立深度强化学习方法的奖励函数r: r=re+rps+rv+rm+rsw+rst (8) 式(8)中,re为误差奖励函数,并有: re=-▽w2-▽β2+50 (9) 式(9)中,▽w为横摆角速度误差,▽β为质心侧偏角误差,并有: ▽w=w-wd (10) ▽β=β-βd (11) 式(8)中,rps为固定奖励值函数,并有: 式(8)中,rv为速度差奖励函数,并有: 式(8)中,rm为附加横摆力矩奖励函数,并有: 式(8)中,rsw为修正角奖励函数,并有: rsw=-|▽δ|+10 (15) 式(8)中,rst为稳定域奖励函数,并有: rst=-(|▽δ|+|▽M|)/10 (16) 步骤7:构建深度强化学习方法的网络模型: 步骤7.1:构建动作网络模型,包括:包含一个神经元的一层输入层,各自包含n1个神经元的m1层隐藏层,包含2个神经元的一层输出层;初始化动作网络参数为θμ; 步骤7.2:构建评价网络模型,包括:各包含1个神经元的两层输入层,各自包含n2个神经元的m2层隐藏层,其中,第m2层隐藏层为全连接层,包含1个神经元的一层输出层;初始化评价网络参数为θQ; 步骤7.3:构建与所述动作网络模型结构相同的目标动作网络模型,且令目标动作网络参数θμ′=θμ,构建与所述评价网络模型结构相同的目标评价网络模型,且令目标评价网络参数θQ′=θQ; 步骤8:由第i条样本形成N条样本: 初始化第i个车辆状态参数si,并以第i个车辆状态参数si作为所述动作网络模型的输入,由所述动作网络模型输出μ(si|θμ); 利用式(17)得到第i个车辆动作参数ai: ai=μ(si|θμ)+Ni (17) 式(17)中,Ni表示第i个随机噪声; 根据式(8)获取第i个车辆奖励值ri,并得到更新后的第i个车辆状态参数s′i;从而得到获得第i条样本,记为(si,ai,ri,s′i),进而得到N条样本; 步骤9:用所述N条样本对所述深度强化学习方法的网络模型进行训练,从而得到得到最优动作网络模型和最优评价网络模型; 步骤10:判断式(18)和式(19)是否均成立,若均成立,则表示汽车处于稳定状态,否则,表示汽车处于不稳定状态,并执行步骤11: |▽w|≤|ε·wd| (19) 式(18)中,k1为稳定域第一边界系数,k2为稳定域第二边界系数;为质心侧偏角速度; 式(19)中,ε为可调参数; 步骤11:获取车辆当前状态参数st作为最优动作网络模型的输入,从而利用所述最优动作网络模型输出当前附加横摆力矩▽Mt和修正转角▽δt; 步骤12:判断式(20)是否成立,若成立,则表示汽车的转向性质为不足转向,则令动作车轮为内后轮,并执行步骤13,否则,表示汽车的转向性质为过多转向,则令动作车轮为外前轮,并执行步骤14; wd×(w-wd)>0 (20) 步骤13:若δf>0,则令修正转角▽δt的方向向左,若δf<0,则令修正转角▽δt的方向向右; 步骤14:若δf>0,则令修正转角▽δt的方向向右,若δf<0,则令修正转角▽δt的方向向左。 2.根据权利要求1所述的智能汽车稳定性控制方法,其特征是,所述步骤9是按如下过程进行: 步骤9.1:初始化学习率参数为α,回报率参数为γ;初始化i=1; 步骤9.2:以所述第i个车辆状态参数si作为当前第i个动作网络模型的输入,由所述当前第i个动作网络模型输出第i个输出值μ(si|θμ); 以所述第i个车辆状态参数si、第i个车辆动作参数ai和所述动作网络的第i个输出值μ(si|θμ)均作为所述当前第i个评价网络模型的输入,由所述第i个车辆状态参数si和第i个车辆动作参数ai经过所述当前第i个评价网络模型输出第i个输出值Qi(ai);由所述动作网络模型的第i个输出值μ(si|θμ)经过所述当前第i个评价网络模型输出第i个输出值Qi(μ(si|θμ)); 以所述更新后的第i个车辆状态参数s′i作为所述当前第i个目标动作网络模型的输入,由所述当前第i个目标动作网络模型输出第i个输出值μ(s′i|θμ′); 以所述更新后的第i个车辆状态参数s′i和目标动作网络模型的第i个输出值μ(s′i|θμ′)作为所述当前第i个目标评价网络模型的输入,由所述当前第i个目标评价网络模型输出第i个输出值Q′i(a′i); 根据所述当前第i个评价网络模型的第i个输出值Qi(μ(si|θμ))利用策略梯度法对所述当前第i个动作网络模型进行更新,从而得到第i次更新后的动作网络模型并作为第i+1个动作网络模型; 根据当前第i个评价网络模型的输出Qi(ai)以及所述当前第i个目标评价网络模型的输出Q′i(a′i),利用最小化损失函数对所述当前第i个评价网络模型进行更新,从而得到第i次更新后的评价网络模型并作为第i+1个评价网络模型; 步骤9.3:将i+1赋值给i后,判断i>N是否成立,若成立,则表示得到最优动作网络模型和最优评价网络模型,否则,返回步骤9.2执行。
所属类别: 发明专利
检索历史
应用推荐