当前位置: 首页> 交通专利数据库 >详情
原文传递 一种基于强化学习的城轨列车节能运行策略在线优化方法
专利名称: 一种基于强化学习的城轨列车节能运行策略在线优化方法
摘要: 本发明公开了一种基于强化学习的城轨列车节能运行策略在线优化方法,首先对列车运行过程进行分析,建立多目标速度调整模型,然后基于强化学习算法对列车能耗优化问题进行求解。该方法不需要目标速度曲线,能够利用实时采集的列车速度、位置信息,在不同计划运行时间并满足安全、准点、舒适、精准停车的条件下选择节能策略运行,有效降低能耗,能够对实际运行过程中的扰动进行在线响应,适用性强。
专利类型: 发明专利
国家地区组织代码: 四川;51
申请人: 西南交通大学
发明人: 王小敏;杨旭立;张文芳
专利状态: 有效
申请日期: 2019-09-03T00:00:00+0800
发布日期: 2019-11-26T00:00:00+0800
申请号: CN201910827467.6
公开号: CN110497943A
代理机构: 成都正华专利代理事务所(普通合伙)
代理人: 陈选中
分类号: B61L27/00(2006.01);B;B61;B61L;B61L27
申请人地址: 610031 四川省成都市二环路北一段
主权项: 1.一种基于强化学习的城轨列车节能运行策略在线优化方法,其特征在于,包括以下步骤: S1、确定待优化的列车线路区间的基本参数; S2、根据列车线路区间的基本参数,将列车运行过程分为n个子阶段,建立列车能耗模型; S3、建立多目标速度调整模型; S4、使用强化学习算法,结合多目标速度调整模型,对能耗模型进行求解,得到列车节能运行策略。 2.根据权利要求1所述的基于强化学习的城轨列车节能运行策略在线优化方法,其特征在于,所述步骤S1中列车线路区间的基本参数包括:列车参数、线路参数和运营参数; 所述列车参数包括:列车质量、牵引特性曲线、制动特性曲线、最大限制速度和最大加速度; 所述线路参数包括:线路的限速、长度、坡度和曲率; 所述运营参数为列车线路区间的计划运行时间。 3.根据权利要求1所述的基于强化学习的城轨列车节能运行策略在线优化方法,其特征在于,所述步骤S2中,所述列车能耗模型为: 其中,E为列车能耗,fi为第i个阶段的列车单位质量牵引力或制动力,ξ为牵引工况判断系数,Si为第i个阶段的行驶距离,0≤i≤n。 4.根据权利要求1所述的基于强化学习的城轨列车节能运行策略在线优化方法,其特征在于,所述步骤S3中多目标速度调整模型包括:超速防护模型、准点速度调整模型和精准停车模型。 5.根据权利要求4所述的基于强化学习的城轨列车节能运行策略在线优化方法,其特征在于,所述步骤S4中的强化学习算法采用深度Q学习算法;所述步骤S4包括以下步骤: S41、定义列车状态和动作; S42、根据多目标速度调整模型对列车动作进行调整,得到新的环境状态; S43、根据调整后的列车动作和环境状态参数,通过能耗模型构建深度Q学习算法中Q网络的状态动作Q函数,使用训练后的Q网络得到列车节能运行策略。 6.根据权利要求5所述的基于强化学习的城轨列车节能运行策略在线优化方法,其特征在于,所述步骤S41包括以下步骤: S411、将列车运行模型重新定义为马尔可夫决策过程,将每一子阶段的时间间隔Δt设为0.2s,将深度Q学习算法中智能体选择的动作定义为每一子阶段内牵引力或制动力使用系数μ,动作空间A设置为μi∈|A(si)|=[0,0.1,0.5,1],0≤i≤n,其中,si为环境状态; S412、将深度Q学习算法中的环境状态si定义为:si=[xi,vi,T-ti,fi,gi,fFSB(xi)],其中,xi为i阶段列车位置、vi为i阶段列车速度、T-ti为i阶段剩余运行时间、fi为i阶段单位质量牵引力或制动力、gi为i阶段线路坡道值和fFSB(xi)为i阶段位置xi处FSB触发曲线限速值。 7.根据权利要求6所述的基于强化学习的城轨列车节能运行策略在线优化方法,其特征在于,所述步骤S42中根据超速防护模型对列车动作进行调整包括以下步骤: A1、在列车处于状态si时,判断速度vi是否大于位置xi处的EB触发曲线限速值fEB(xi),若是,则跳转至A2,若否,则跳转至A3; A2、以紧急制动率矫正列车当前加速度; A3、判断速度vi是否大于位置xi处的FSB触发曲线限速值fFSB(xi),若是,则跳转至A4,若否,则保持列车当前加速度; A4、以全常用制动率矫正列车当前加速度。 8.根据权利要求6所述的基于强化学习的城轨列车节能运行策略在线优化方法,其特征在于,所述步骤S42中根据准点速度调整模型对列车动作进行调整包括以下步骤: B1、在列车处于状态si时,判断速度vi是否小于剩余时间分配算法计算的最优运行速度,若是,则跳转至步骤B2,若否,保持列车当前牵引力或制动力使用系数μ; B2、矫正牵引力或制动力使用系数μ使列车进入牵引工况。 9.根据权利要求6所述的基于强化学习的城轨列车节能运行策略在线优化方法,其特征在于,所述步骤S42中根据精准停车模型对列车动作进行调整包括以下步骤: C1、在列车处于状态si时,判断速度vi是否大于停车曲线上当前位置xi处所对应的速度,若是,则跳转至步骤C2,若否,则保持当前加速度; C2、进入停车阶段,以停车制动率ai矫正列车当前加速度,所述停车制动率ai的计算公式为: 其中,为i-1阶段的实际制动率,ai-1为i-1阶段调整后的停车制动率,ρ为学习率,ρ=0.1,ai*为i阶段理论停车制动率,xstop目标停车点。 10.根据权利要求6所述的基于强化学习的城轨列车节能运行策略在线优化方法,其特征在于,所述步骤S43中根据调整后的列车动作和环境状态参数,通过能耗模型构建深度Q学习算法中Q网络的状态动作Q函数,使用训练后的Q网络得到列车节能运行策略满足以下公式: 其中,ri(*)为i阶段奖励函数,γ为衰减因子,γ=0.99,ξ为牵引工况判断系数,Qπ(*)为Q函数,ε为贪婪随机策略中的随机概率,ε=0.5,μi为i阶段牵引力或制动力使用系数。
所属类别: 发明专利
检索历史
应用推荐