当前位置: 首页> 交通专利数据库 >详情
原文传递 基于策略梯度在线学习算法的巡航控制系统及设计方法
专利名称: 基于策略梯度在线学习算法的巡航控制系统及设计方法
摘要: 本发明属于汽车先进智能辅助驾驶系统设计及汽车安全技术领域,具体的说是一种基于策略梯度在线学习方法设计的巡航控制系统及方法。本发明将基于策略梯度的强化学习方法,针对车辆系统控制问题的需求,设计了一种基于策略梯度在线学习方法设计的自适应巡航控制系统。该系统适用于L2级别自动驾驶车辆,目标是通过在线学习有效提高系统对不同环境的适应能力,在不同环境下得到一致的控制性能。本发明进一步地对学习框架进行改进,以提高学习算法的效率及稳定性,使得在实际问题中,车辆可以快速地适应变化的环境。
专利类型: 发明专利
国家地区组织代码: 吉林;22
申请人: 吉林大学
发明人: 高炳钊;张羽翔;郭露露;陈虹
专利状态: 有效
申请日期: 2019-10-30T00:00:00+0800
发布日期: 2019-12-27T00:00:00+0800
申请号: CN201910952171.7
公开号: CN110615003A
代理机构: 长春吉大专利代理有限责任公司
代理人: 崔斌
分类号: B60W50/00(2006.01);B;B60;B60W;B60W50
申请人地址: 130012 吉林省长春市前进大街2699号
主权项: 1.一种基于策略梯度在线学习算法的巡航控制系统,其特征在于,该系统包括智能感知信号处理模块(A)、模式切换模块(B)、学习模块(C)和车辆执行控制模块(D); 所述智能感知信号处理模块(A),用于获得当前车辆和前方车辆行驶状态信息并进行信号处理; 所述模式切换模块(B),用于对学习系统中不同模式进行切换,基于规则方法设计模式切换策略; 所述学习模块(C),用于学习跟车策略并根据环境进行在线更新; 所述车辆执行控制模块(D),用于对实际控制量进行跟踪控制,采用双层前馈加反馈PID控制器实现; 所述智能感知信号处理模块(A)与模式切换模块(B)、学习跟车模块(C)以及执行控制模块D相连;所述模式切换模块(B)与学习跟车模块(C)相连;所述学习跟车模块(C)与执行控制模块(D)相连。 2.根据权利要求1所述一种基于策略梯度在线学习算法的巡航控制系统的设计方法,其特征在于,该方法包括以下步骤: 步骤一、通过智能感知信号处理模块(A)获得车辆控制算法所需的状态信息,包括:借助车载智能感知模块中的车载摄像头、雷达环境感知元件确认前方待跟随车辆,并得到当前车辆和前方车辆行驶状态信息;并且根据前车车速通过计算得到加速状态; 步骤二、通过模式切换模块(B)切换学习系统中的不同模式,基于规则方法设计模式切换策略,用于切换上层控制器中的不同控制模式,其中这些控制模式有:启停模式,非跟车模式,跟车学习模式,测试模式,恢复模式; 步骤三、通过学习跟车模块(C)针对不同的模式使用不同控制方法,构建一个可连续学习的在线跟车学习模块,其中最重要的是跟车学习模式,在此模式中使用基于强化学习中的策略梯度方法在线学习跟车行为;测试模式应用强化学习学到的策略验证学习效果;非跟车模式应用于无前车的情况,直接使用强化学习方法对本车进行速度控制;以上三种模式均建立在强化学习系统框架下;启停模式与恢复模式使用比例-积分-微分PID控制器进行控制; 步骤四、通过车辆执行控制模块(D)采用双层前馈加反馈比例-积分-微分PID控制器实现对于决策量的跟踪执行,保证跟踪控制精度。 3.根据权利要求2所述一种基于策略梯度在线学习算法的巡航控制系统的设计方法,其特征在于,所述步骤一的具体方法如下: 在智能感知信号处理模块(A)中,通过车身总线可读取车载摄像头与雷达自身算法识别出的目标物序号,位置,速度信息,以及本车的运动状态; 同时,根据前车车速使用二次均值滤波得到前车的加速状态,作为后续控制算法的状态输入。 4.根据权利要求2所述一种基于策略梯度在线学习算法的巡航控制系统的设计方法,其特征在于,所述步骤二的具体方法如下: 模式切换模块(B)针对的模式有启停模式,非跟车模式,跟车学习模式,测试模式,恢复模式;在上层控制器中不同模式的切换中,使用基于规则方法设计模式切换策略,其中用于切换的具体条件如下: C1:是否满足算法控制车辆车速条件;车速降低至低于15km/h则不满足本算法控制条件即C1=0,直到车速增加至超过20km/h重新满足本算法控制条件即C1=1; C2:前方是否有待跟随车辆,若有待跟随车辆C2=0,若无待跟随车辆C2=1; C3:是否满足自适应巡航条件;即前车车速与当前车辆设定车速关系,若前车车速高于本车设定车速则不满足跟车条件即C3=0,否则C3=1; C4:是否满足学习条件;即当前车辆与前车的距离及速度关系是否适合进行跟车学习,不满足跟车学习即C4=0的条件有:车头时距小于1或前车距离高于最远跟车距离,否则C4=1; C5:当前车辆设定状态;分为两种,学习状态即C5=1及测试状态即C5=0。 5.根据权利要求2所述一种基于策略梯度在线学习算法的巡航控制系统的设计方法,其特征在于,所述步骤三的具体方法如下: 在学习跟车模块(C)中,通过不同的模式间的切换策略,构建了一个可连续学习的在线跟车学习模块,并针对不同的模式使用强化学习和比例-积分-微分PID两种不同控制方法,其中,启停模式与恢复模式使用比例-积分-微分PID控制器进行控制;而最重要的是跟车学习模式,在此模式中使用基于强化学习中的策略梯度方法在线学习跟车行为;测试模式应用强化学习学到的策略验证学习效果;非跟车模式应用于无前车的情况,直接使用强化学习方法对本车进行速度控制;以上三种模式均建立在强化学习系统框架下;在连续状态空间及连续动作空间中基于强化学习中的策略梯度方法及Actor-Critic框架进行在线学习;为了进一步提高系统安全性,针对此类算法的效率及稳定性低的弱点,近一步的对Actor中的策略搜索策略及Critic中的策略评价方法进行改进,减少算法对于动作策略及值函数初值的敏感及依赖性,这种方法称为策略引导强化学习方法;具体方法如下: 3.1)策略引导强化学习方法:针对连续状态及动作的强化学习算法的效率及稳定性低的弱点,在Actor-Critic框架下,对Actor中的策略搜索策略及Critic中的策略评价方法进行改进,减少算法对于动作策略及值函数初值的敏感及依赖性;基于状态s,Actor神经网络输出采取动作a,Critic神经网络基于动作执行前后的状态转移(s→s′)估计状态值函数,并根据回报r计算TD-error进行评价用于更新;动作网络的更新公式可表示为: 其中,θ为动作网络参数;α为学习率;为对动作策略π的求导;δ为估计误差;sign(δ)和|δ|分别为其符号及大小;δ用时序差分方法进行计算,δTD(0)可表示为 其中,r为状态s执行动作a后得到的回报信号;γ∈(0,1)为折扣率;和分别为Critic网络在状态转移后s′以及前s估计的状态值函数;ω为动作网络参数;多步(t步)估计时,δTD(t)可表示为 其中,r(k+i)为状态s(k+i)执行动作a(k+i)后得到的回报信号;和分别为Critic网络在状态转移后s(k+t)以及前s(k)估计的状态值函数; 策略π将动作搜索与动作利用结合,使用正态分布方式搜索动作空间,可表示为: 其中,s为当前状态,a为选择的动作,θ为动作网络参数,μ(s;θ)为当前状态下动作网络的输出值,为动作搜索的均值,σ(s)为动作搜索的标准差;因此,式(1)进一步改写为: 其中,θ为动作网络参数,α为学习率,δ为估计误差,sign(δ)和|δ|分别为其符号及大小,μ(s;θ)为当前状态下动作网络的输出值,为对动作网络输出层函数的求导,σ(s)为动作搜索的标准差,a为选择的动作; 因此,在更新公式中,除了对于网络本身梯度的求导,由于强化学习一般使用较小的学习率,此过程中,sign(δ)决定了策略μ(s;θ)向a的更新方向,也是更新的重要因素;可以看到,在此过程中,好的策略搜索对于学习影响巨大;由于动作空间大,且基于实际物理系统,搜索步长受限制;因此,将评价由对于某一动作的评价变为对于搜索方向的评价,使用归一化的评价函数,监督评价信号,具体的实施方式为: 对于t时刻,状态s对应的待评价状态分量的实际值与期望值分别为x,x*,及t+1时刻的状态s'对应的待评价状态分量的实际值与期望值分别为x',x'*;因此,归一化后的新项y,y*,y',y'*可以表示为 对于跟踪问题而言,归一化后问题被统一为y'达到零点;归一化后的评价信号d可表示为: 其中,m为较大的常数值,这里取m=100;y分别为归一化的上下边界,分别取值为max(y′*,1),min(y′*,1);使用评价信号d可不基于模型对搜索方向进行评价;在此评价信号的基础上,在连续学习过程中,上一时刻动作的搜索方向及评价信号被用于指导下一时刻的动作搜索,即在每一个批训练集内,每个时刻的搜索方向,在没有好的指导方向时,采用随机的搜索方向;当有差的搜索方向时,采用与其相反的搜索方向;当有好的搜索方向时,采用与其相同的搜索方向;同时在此批训练集内,定义每个搜索方向的基准dbase,记录与其搜索方向相反的待评价状态变化值;假定在批训练集内,学习环境变化不变当前策略差时,两个搜索方向均无法得到正的评价信号d;此时,将当前搜索方向的基准dbase,即与当前搜索方向相反的待评价状态变化值,加入当前的状态变化;比较多步估计信号δTD(t)与评价信号d,若二者符号相同,则使用式(3)作为误差信号估计,否则使用评价信号进行更新;此种情况下,动作网络以及值函数网络的更新信号ea,ec可表示为: 具体计算过程如下: 步骤(1):参数初始化包括Actor,Critic网络权值及学习率,批训练集样本数n,最大步数N; 步骤(2):初始化环境; 步骤(3):基于当前状态及上一时刻评价信号选择动作,得到回报,进行评价,更新基准,执行状态转移; 步骤(4):如果样本集中个数未达到n中且状态未达终态或到达最大步数,重复步骤(3),否则执行步骤(5); 步骤(5):在批量样本中,由后向前循环计算状态st值函数的计算值Rt,迭代公式为Rt=rt+γRt+1,其中t+1=T时,并将多步估计信号与评价信号d的符号对比;如果,sign(d)=sign(δTD(t)),使用δTD(t)更新;否则,使用式(8)更新;其中rt表示状态st执行at得到的回报,γ∈(0,1)为折扣率,为Critic网络在状态st,st+1估计的状态值函数; 步骤(6):判断策略是否收敛,如果不收敛,则重复步骤(2)-(5),直到策略收敛; 3.2)学习跟车模块在线学习系统建立:将以上的策略引导强化学习方法应用于在线跟车策略学习系统,将驾驶过程建模为马尔科夫决策过程;首先是状态设计,跟车模式下,状态为: 其中,vh为本车车速;Δv为相对车速;Δd为相对距离;IL为前车驾驶意图;TH=Δx/vh为车头时距;ΔTH=THtar-TH为期望时距与当前时距之差;特别的,在非跟车状态下,TH=THtar+c(vset-vh);c=0.1为一系统设定常数;动作量为车轮处力矩,回报为: 其中,vref为期望速度;vh为本车车速;Δx为相对距离;Δxcra碰撞发生时的距离;TH=Δx/vh为车头时距;THmax为最大跟车时距;同时将问题设定为车速跟踪问题,当前时刻的期望速度vref由均上一时刻的状态量决定,可表示为: 其中,Δx为上一时刻相对距离;d0为安全距离;ΔT=Δt*n,Δt为系统的控制周期;n=10为一常数;sl=(vl'+vl)/2*ΔT;sl为前方车辆在系统的控制周期内行驶的距离;vl',vl为前方车辆在当前及上一时刻的速度;vh为上一时刻本车车速;THtar为当前时刻期望跟车时距;h∈(0,1)为一系统固定参数; 在算法中,归一化后的评价信号d可表示为 其中,m为较大的常数值,取m=100;归一化后的k时刻的本车车速yvh(k)和参考车速yref(k),评价信号d的上下界点yvh(k)可分别表示为: y vh(k)=min(1,yref(k)) (16) 每个搜索方向的基准dbase可由下式计算得到: dbase=vh(k)-vh(k-1), (17) 其中,vh(k)和vh(k-1)分别为两相邻时刻k,k-1的本车车速值,vref(k)和vref(k-1)分别为两相邻时刻k,k-1的参考车速值;同时使用神经网络表示策略网络和状态值函数网络,所涉及的神经网络激活函数在输入层和输出层均选取双曲正切函数,更新过程采用神经网络训练时的梯度下降法。 6.根据权利要求2所述一种基于策略梯度在线学习算法的巡航控制系统的设计方法,其特征在于,所述步骤四的具体方法如下: 车辆执行控制模块D采用双层前馈加反馈比例-积分-微分PID控制器实现对于决策量的跟踪执行,保证控制精度;由动作量Tw车轮处期望力矩根据逆向动力学模型计算发动机力矩Te或制动轮缸压力Pwc作为前馈量,同时使用PID进行反馈控制;内层对发动机力矩Te,外层对车轮处力矩Tw进行跟踪控制; 车辆的纵向动力学模型可以表示为; 其中,M为车辆质量;a为纵向加速度,Te为发动机力矩;it为动力传动系统总传动比;ηt为动力传动系统总效率;Tb为制动总力矩;Fr,为行驶阻力,包含滚动阻力,空气阻力,加速阻力之和;R为车轮半径;进一步地,逆向纵向动力学模型可表示为: 其中,Tw为车轮处力矩;Te为发动机力矩;it为动力传动系统总传动比;ηt为动力传动系统总效率;Tb为制动总力矩;Pwc为前后轮制动压力;KEF,KER分别为前后轮等效制动效能因素;nf=nr=2为前后轮个数。
所属类别: 发明专利
检索历史
应用推荐