当前位置: 首页> 交通专利数据库 >详情
原文传递 一种港口集疏运车辆动态智能调度方法
专利名称: 一种港口集疏运车辆动态智能调度方法
摘要: 本发明公开了一种港口集疏运车辆动态智能调度方法,包括:构建车辆任务选择决策单元模型MDP‑VTS,该模型包括车辆指派模型和动态任务分配模型,两模型之间的关系如图2所示;其中车辆指派模型是在任务开始执行前选派将要执行集疏运任务的车辆,动态任务分配模型则是根据车辆当前的任务执行状况以及总体任务信息为车辆实时分配任务;所述车辆任务选择决策单元模型MDP‑VTS的动作任务选择策略通过Res‑D3QN算法求解获得;将求解过程分为学习阶段和应用阶段,所述学习阶段采用多轮增量学习进行Q网络参数的训练更新;所述应用阶段先进行模拟指派优选车辆指派方案,然后进行动态任务分配。本方法能够根据任务和作业环境变化动态制定适应性的车辆智能调度指派方案。
专利类型: 发明专利
国家地区组织代码: 辽宁;21
申请人: 大连理工大学
发明人: 周鹏飞;王奋斗;韩新锐
专利状态: 有效
申请日期: 2023-09-08T00:00:00+0800
发布日期: 2023-11-28T00:00:00+0800
申请号: CN202311156657.2
公开号: CN117132071A
代理机构: 大连智高专利事务所(特殊普通合伙)
代理人: 盖小静
分类号: G06Q10/0631;G06Q10/083;G06N3/092;G06N3/084;G06N3/0464;G;G06;G06Q;G06N;G06Q10;G06N3;G06Q10/0631;G06Q10/083;G06N3/092;G06N3/084;G06N3/0464
申请人地址: 116024 辽宁省大连市甘井子区凌工路2号
主权项: 1.一种港口集疏运车辆动态智能调度方法,其特征在于,包括: 构建车辆任务选择决策单元模型,该模型包括车辆指派模型和动态任务分配模型;其中车辆指派模型是在任务开始执行前选派将要执行集疏运任务的车辆,动态任务分配模型则是根据车辆当前的任务执行状况以及总体任务信息为车辆实时分配任务; 所述车辆任务选择决策单元模型的动作任务选择策略通过Res-D3QN算法求解获得; 将求解过程分为学习阶段和应用阶段,所述学习阶段采用多轮增量学习进行Q网络参数的训练更新;其中,强化学习部分利用Q网络进行动作决策,在车辆执行集装箱运输任务的过程中不断获取训练样本扩充经验池;深度学习部分则利用经验池中的样本不断更新Res-D3QN网络参数;所述应用阶段先进行模拟指派优选车辆指派方案,然后进行动态任务分配。 2.根据权利要求1所述一种港口集疏运车辆动态智能调度方法,其特征在于,车辆指派模型的目标是最小化完成所有集疏运任务的总费用,如式(1)所示: 其中,W(stk,mt)表示车辆k在状态stk下执行任务mt的总费用,包括司机费用、油耗费用和碳排放治理费用、以及惩罚费用之和,具体公式如下: 其中:Te(stk,mt)和Tu(stk,mt)分别表示车辆k在状态stk下执行任务mt的空载和怠速行驶的耗时函数,取值单位min;系数v根据车辆类型取值,自有车辆时k∈[1,K1],取v1;外雇车辆时k∈[K1+1,K1+K2],取v2;Tp(stk,mt)表示车辆k在状态下执行任务mt时偏离预约区间的时间函数,取值单位min;θ在车辆抵港提前时取θ1;迟到时取θ2; 式(2)中mt根据车辆k的状态stk获取,公式如下: mt=G(stk,at)=G(stk,π(stk)) (3) 其中,G(stk,at)表示车辆k在状态stk下选择动作at时应执行的任务;π(stk)为车辆任务选择决策单元模型的动作选择策略。 3.根据权利要求1所述一种港口集疏运车辆动态智能调度方法,其特征在于,动态任务分配模型的目标是最大化累积立即回报,如式(4)所示; 车辆k在状态stk下执行任务mt的总费用为: 式中,Te′(stk,mt)、Tu′(stk,mt)和Tp′(stk,mt)分别表示车辆k在状态stk下执行任务mt的空载、怠速行驶和偏离预约区间的时间,由车辆实际作业反馈得到;mt根据车辆k的状态stk获得; 立即回报r(stk,at)与W′(stk,mt)的关系为: ω1:ω2:ω3=(v+(cF+cR×ψ)·re):(u+(cF+cR×ψ)·ru):θ (6)。 4.根据权利要求1所述一种港口集疏运车辆动态智能调度方法,其特征在于,所述车辆任务选择决策单元模型的状态集S中每个状态s表达式为: s=(p1,p2,p3,p4,p5,p6) (7) 式中:p1为下一计划时间窗内集港与疏港任务量之差;p2为下一计划时间窗内集港与疏港任务量之和;p3为车辆当前位置当前时间的任务量;p4为当前时间各任务中剩余最大任务量占剩余任务总量的比例;p5为当前时间以当前位置为终点的车辆总数;p6为当前时间超过预约时间的任务总量; 基于车辆任务筛选策略组合的规则设计车辆任务选择决策单元模型的车辆动作组,6个具体动作如下: 1)a1-选择预约时间最紧迫任务集中起点距离车辆所在位置最近的任务; 2)a2-选择预约时间最紧迫任务集中起点到终点行驶时间最小的任务; 3)a3-选择预约时间最紧迫任务集中剩余箱量最多的任务; 4)a4-选择起点距离车辆所在位置最近任务集中预约时间最紧迫的任务; 5)a5-选择起点距离车辆所在位置最近任务集中起点到终点行驶时间最小的任务; 6)a6-选择起点距离车辆所在位置最近任务集中剩余箱量最多的任务。 5.根据权利要求3所述一种港口集疏运车辆动态智能调度方法,其特征在于,所述车辆任务选择决策单元模型的立即回报函数包括任务回报和时间回报两部分构成,其公式为: r=rd+rt (8) rd=λ1r1+λ2r2 (9) rt=-(ω1Te+ω2Tu+ω3Tc) (10) 式(8)中,r为立即回报,rd为任务回报,rt为时间回报;其中,r1为任务紧迫度反馈值,若本次任务降低了任务紧迫度则给予正反馈,否则给予负反馈;r2为任务平衡度反馈值,若本次任务使剩余集疏港任务量之差减小则给予正反馈,否则给予负反馈;λ1、λ2均为任务回报分项系数;Te、Tu、Tc分别为车辆执行任务过程中的空载时间、怠速时间和偏移预约时段的时间,单位均为min,ω1、ω2、ω3为时间回报分项系数,单位均为min-1。 6.根据权利要求5所述一种港口集疏运车辆动态智能调度方法,其特征在于,所述车辆任务选择决策单元模型的动作选择策略π根据所处状态由策略函数决定,车辆k在状态下选择的动作为: 其中表示车辆在状态/>下执行动作a的立即回报值;/>表示车辆状态/>下执行动作a的累积回报;γ为累积回报折扣因子。该动作策略π将通过Res-D3QN算法进行学习获得。 7.根据权利要求6所述一种港口集疏运车辆动态智能调度方法,其特征在于,在Res-D3QN算法中智能体与环境交互试错学习的方式为:智能体针对集疏运系统中车辆当前的状态向量s,利用参数为w的Q-Net网络评估该状态下执行各个动作的累积回报值Q(s,at;w),通过学习探索策略输出动作a;集疏运系统执行智能体的动作a后,系统状态由s转移为s′,系统立即回报为r,产生立即回报r的过程中获得经验定义为e=(s,a,r,s),存入经验池供后续训练使用;同时接收环境向其反馈的立即回报信号进而开展新一轮循环; 将价值函数Q分为两部分:第一部分为状态价值函数,仅与车辆状态有关,与车辆执行的动作无关,记为V(s;w,α);第二部分为优势函数,与状态和动作都有关,记为这两部分构成Q网络的倒数第二层网络,Q网络最后一层输出层的价值函数为这两部分之和: 其中,w是公共部分的网络参数,α是状态价值函数部分独有的网络参数,β是优势函数部分独有的网络参数; Res-D3QN算法将动作的选择和衡量解耦,用Q网络选择动作,用目标Q网络确定动作价值;Q网络迭代更新参数需要逼近的目标值为y=r+γQ(s′,argmaxQ(s′,a′;w,α,β);w′,α′,β′),γ为折扣因子,此目标值由另一个与Q网络结构完全相同的目标网络预测;将预测值和目标值代入损失函数计算损失值,如式(14)所示: Loss(w)=E(a,r,s,r′)[(y-Q(s,a;w,α,β))2] (14) 上述损失函数对权重w求偏导即实现反向传播,采用梯度下降机制更新Q网络参数,在训练时,先只更新Q网络的参数,间隔一定时间后将Q网络的参数复制给目标网络; 基于残差机制设计了以线性层为权重层的残差MLP网络作为Q网络,其残差部分的输出为:H(x)=F(x)+x,其中,x为残差块的输入;H(x)为残差块的输出;F(x)为输出与输入之差,即残差。 8.根据权利要求7所述一种港口集疏运车辆动态智能调度方法,其特征在于,所述探索策略如下: 其中,τ为学习次数;ε0为ε的初始值;ζ为衰减系数。 9.根据权利要求1所述一种港口集疏运车辆动态智能调度方法,其特征在于,学习阶段步骤如下: Step1:初始化Q-Net和Target Q-Net网络参数; Step2:初始化环境参数:车辆、任务序列、码头及货运站信息; Step3:空闲车辆根据当前状态选择动作并执行对应的集装箱运输任务; Step4:计算本次任务的立即回报并将本次决策的经验信息存入经验池; Step5:判断任务序列中的任务是否都已完成,是则转Step2;否则转Step3; Step6:从经验池中随机取出批量的训练样本训练Q-Net,更新其网络参数; Step7:判断是否达到更新Target Q-Net网络参数的时间点,若为是,转向Step8,否则,转向Step9; Step8:将Q-Net的网络参数复制给Target Q-Net; Step9:判断是否满足终止准则,即目标函数值收敛,Q-Net网络参数趋于稳定;若为是,则输出Q-Net并结束学习阶段;否则,转向Step6。 10.根据权利要求9所述一种港口集疏运车辆动态智能调度方法,其特征在于,应用阶段步骤如下: Step1:模拟车辆指派,优选车辆指派方案; Step1-1:调度中心载入学习阶段输出学习后的Q-Net网络; Step1-2:初始化环境参数,选择待尝试的车辆指派方案,即拟派遣的自有及外雇车辆数量方案; Step1-3:获取空闲车辆状态,调度中心根据学习后的Q-Net为车辆指派最佳任务; Step1-4:车辆模拟执行本次任务并将作业详细信息发送给调度中心;判断所有任务是否已全部完成,是则转Step1-5;否则转Step1-3; Step1-5:记录车辆指派方案总成本值,判断是否所有待尝试车辆指派方案都已模拟试算,是则输出最小总成本对应的车辆指派方案后结束,否则转Step1-2。 Step2:动态任务分配; Step2-1:调度中心载入学习阶段输出的学习后的Q-Net; Step2-2:初始化环境参数并采用Step1优选的车辆开始集疏港作业; Step2-3:车辆向调度中心发送任务请求;调度中心根据车辆状态为其指派最佳任务; Step2-4:车辆完成本次任务并将作业详细信息发送给调度中心;调度中心对本次任务进行评价并计算立即回报,自适应更新Q-Net网络参数; Step2-5:判断是否完成所有任务,是则输出总成本结束调度,否则转Step2-3。
所属类别: 发明专利
检索历史
应用推荐