主权项: |
1.一种具有驾驶风格学习能力的自适应巡航系统,其特征在于,该系统包括感知融合模块(A)、跟车控制模块(B)、驾驶风格自学习模块(C)和车辆执行控制模块(D); 感知融合模块(A),用于得到前方车辆行驶状态信息,包括前方车辆的速度信息、相对车距; 跟车控制模块(B)包括车辆跟随控制模块(B—a)和前车加速度进行预测模块(B—b),车辆跟随控制模块(B—a)用于建立车辆跟随模型,同时建立控制问题,确定优化的目标,得到跟车控制器;前车加速度进行预测模块(B—b),用于根据确认的前方车辆及前方车辆与当前车辆的行驶状态信息,对前车加速度进行预测; 驾驶风格自学习模块(C),用于针对特定驾驶员驾驶风格会有所差异的特性,基于强化学习方法对特定驾驶员的驾驶风格进行学习,进而调节最优巡航控制问题的控制参数,达到自学习系统功能; 车辆执行控制模块(D),用于进行跟踪控制,并最终输出车辆动力驱动系统及制动系统控制本车驾驶; 所述的感知融合模块(A)与跟车控制模块(B)以及驾驶风格自学习模块(C)单向连接;所述的跟车控制模块(B)与车辆执行控制模块(D)单向连接;所述的驾驶风格自学习模块(C)与跟车控制模块(B)单向连接;所述的车辆执行控制模块(D)与车辆单向连接。 2.根据权利要求1所述的一种具有驾驶风格学习能力的自适应巡航系统的实现方法,其特征在于,该方法包括以下步骤: 步骤一、通过感知融合模块(A)自身融合识别算法确认前方待跟随车辆,并得到前方车辆行驶状态信息,包括前方车辆的速度信息、相对车距;并且从车辆总线即CAN网络通讯,得到当前车辆的速度,发动机力矩,制动减速度等信息; 步骤二、通过跟车控制模块(B)中的车辆跟随控制模块(B—a)建立车辆跟随模型,同时建立控制问题,确定优化的目标,得到跟车控制器;通过跟车控制模块(B)中的前车加速度进行预测模块(B—b),使用前方车辆车速,通过两个一阶低通滤波器对前车加速度进行估计,并使用一个曲率限制器限制加速度的异常变化,对前车加速度进行预测; 步骤三、通过驾驶风格自学习模块(C),针对特定驾驶员驾驶风格会有所差异的特性,基于强化学习方法对特定驾驶员的驾驶风格进行学习,进而调节最优巡航控制问题的控制参数,达到自学习系统功能; 步骤四、通过底层车辆执行控制模块(D)进行跟踪控制,并最终输出车辆动力驱动系统及制动系统控制本车驾驶。 3.根据权利要求2所述的一种具有驾驶风格学习能力的自适应巡航系统的实现方法,其特征在于,该方法包括以下步骤: 所述的步骤二的具体方法如下: 2.1)车辆跟随模型建立:根据自适应跟车问题需求,以及车辆纵向运动学与动力学特性,建立车辆跟随模型; 为了描述车辆在跟车场景下的纵向动力学特性,系统引入两个状态变量δ,分别为: δ=d-dref (1a) 其中,d是本车与前方车辆的相对距离,dref是参考相对距离,dref=d0+τvh,d0是停车安全车距,τ是期望车头时距,vh是本车车速,vt是前方车辆车速;因此,车辆在跟车场景下的纵向动力学微分方程可以使用以上两个状态变量表示: 其中,ah是本车纵向加速度,at是前车纵向加速度,τ是期望车头时距;这里假设本车的内环加速度跟踪控制模块可以被一阶近似展开为: 其中,τi是内环动态时间常数,ah是本车纵向加速度,aref是期望纵向加速度; 在连续系统中,状态量选取为控制量为u=aref,将前车加速度建模为系统扰动,即扰动量d=ah;因此,车辆跟随系统对的连续状态空间方程可以表示为: 其中,ah是本车纵向加速度,aref是期望纵向加速度,τi是内环动态时间常数,τ是期望车头时距; 在控制器设计中,使用零阶保持方法即ZOH得到车辆跟随系统的状态空间方程的离散系统表达形式,定义离散系统的状态向量为控制输入u(k)=aref(k),因此在k时刻可以得到: x(k+1)=Ax(k)+Buu(k)+Bdd(k) (4) 其中d(k)=ah(k),Ts是采样时间间隔,τ是期望车头时距,τi是内环动态时间常数; 2.2)将最优巡航控制问题建立为线性二次型优化问题,具体方法如下: 2.2.1)最优二次型控制问题建立; 性能指标函数可以表示为: 其中,是半正定对称矩阵,是正定对称矩阵,x(k)为k时刻状态量,u(k)为k时刻控制量,参数矩阵Q,R代表了控制器对于驾驶风格、舒适性及经济性的要求,这里将其定义为: 将其带入式(5),性能指标函数也可以表示为: 这里可以清楚看到,惩罚项表征了跟车性能,即到达稳态状态时,本车以期望的纵向车速下与前方车辆保持期望的跟车距离,惩罚项期望最小化燃油消耗,惩罚项期望提高本车舒适性,减少频繁的加减速操作; 2.2.2)最优二次型控制问题求解; 定义离散哈密顿方程求解上述优化问题,对于求解优化问题(5),离散哈密顿方程定义为: 其中,是拉格朗日乘子,x(k),u(k),d(k),Q,R,A,Bu,Bd的定义如前所述且在下面公式推导过程中不发生改变,根据及极小值原理使哈密顿函数H(k)最小的最优解需要满足: Qx(k)+ATλ(k+1)-λ(k)=0 (7b) 由于R的逆矩阵R-1存在,由(7a)可得: 这里对于λ(k)选择以下这种形式: λ(k)=Px(k)+hd(x) (9) 其中,和是哈密顿矩阵,将式(8)、(9)代入状态方程(4)得到: 同时把式(9)代入式(7b)得到: (Q-R)x(k)+ATPx(k+1)+AThd(k+1)-hd(k)=0 (11) 将式(10)代入式(11)得到: 由于式(12)需对所有x(k)成立,由此得到黎卡提方程: 由于黎卡提方程(13)转化为: 因为d(k+1)在当前k时刻未知,不失一般性,假设d(k+1)=d(k),式(14)变为 因此,关于h的显式解为; 其中,由此,综合式(7b)、(8)、(9),最优控制律为: 其中,是控制器增益。由此分析得到,可以通过改变控制器增益对驾驶风格区分。 2.2.3)考虑不确定性的前车加速度估计; 使用前方车辆车速,通过两个一阶低通滤波器对前车加速度进行估计,最后使用一个曲率限制器限制加速度的异常变化; 2.3)跟车驾驶风格自学习模块 针对特定驾驶员驾驶风格会有所差异的特性,基于强化学习方法对特定驾驶员的驾驶风格进行学习,进而调节最优巡航控制问题的控制参数,达到自学习系统功能;具体方法如下; 2.3.1)特定驾驶员驾驶风格定义; 基于大量驾驶员统计数据分析结果,使用通常的驾驶风格分类方法,将驾驶员分为激进,稳健,保守三类;激进驾驶员倾向于与前方车辆保持较近的距离,并且频繁加减速;而保守驾驶员倾向于与前方车辆保持较远距离,且较少加减速;系统使用自适应巡航系统中常用的变量车头时距去表征这种行为风格; 2.3.2)强化学习方法建立 由于实际驾驶员风格信息在系统设计时未知,系统使用强化学习方法对特定驾驶员驾驶风格进行学习;当黎卡提方程被求解,则强化学习完成同时系统学习到驾驶员的驾驶风格习性;在线性离散系统中的线性二次型问题中,Q函数是强化学习中的状态动作值函数,是关于状态量和控制量的二次形式,可以表示为: 其中,是强化学习中回报,P是黎卡提解;将系统模型式(4)代入式(19)得到 其中,z(k)=[xT(k),dT(k),uT(k)]T,为了后续微分便利性,定义核矩阵: 根据贝尔曼最优性原理,最优解即使得Q函数函数值最小的控制量u(k),即: 因此,对式(20)求导得到: 由式(20),可以得到系统参数A,Bd,Bu,Q,R对于核矩阵S的显示表达方式,通过学习方法对核矩阵S使用函数逼近中最小二乘方法求解; 使用线性核函数对Q函数逼近,其可写为: 其中,W=[w1,w2,...,w15]T为权值向量,是基函数,使用参数逼近形式的Q函数,对于无限时域γ=1,则强化学习中贝尔曼方程可以写做: 通过增量式学习,基于驾驶员数据逐步更新逼近最优值,对最优权值向量未知的15个未知参数逼近求解;将式(24)的求解转化为最小二乘法即LS问题求解;确定批训练样本数N,对k时刻的样本,在j次迭代计算,m为整数常数,依次计算: 得到Wj+1的最小二乘估计为: LS算法收敛后,系统将计算学得的控制器增益向量与不同跟车行为风格的驾驶员参数表中给定的三类驾驶员风格增益参数向量的2范数相互比较,选择最合适的驾驶风格类型对控制器参数进行更新;否则,保持原控制器参数,继续学习下一步学习; 具体的算法流程为: 步骤(1):基于不同跟车行为风格的驾驶员参数表中的控制器增益初始化权值向量W,N,m,以及各个驾驶风格的特征参数τA,τM,τC,rA,rM和rC; 步骤(2):更新并计算得到当前数据集 步骤(3):使用LS算法:对权值向量W使用式(26)更新,得到Wj+1; 步骤(4):如果LS算法收敛,得到Wj+1,然后更新核矩阵:使用权值向量Wj+1反解核矩阵S各个参数,得到控制器增益估计值:评价所得参数与三种驾驶风格参数向量的2范数比较并选择不同跟车行为风格的驾驶员参数表中最合适的一组参数,更新控制器参数,设置:j=1,并结束计算;并返回车辆跟随驾驶风格; 步骤(5):否则,设置:j=j+1;继续步骤(2)-(4)。 |