主权项: |
1.一种自动驾驶集成决策方法,其特征在于,包括以下步骤: 获取目标点在世界坐标系的第一状态信息,并将所述第一状态信息转换至目标坐标系下,得到所述目标点在目标坐标系的第二状态信息; 基于所述第二状态信息,获取所述目标点在目标时刻偏离参考路径的初始横向位移和初始纵向速度,并基于预设的稳定策略和所述初始横向位移与初始纵向速度之间的函数关系,获得所述世界坐标系中生成轨迹的目标点的状态信息,以根据所述目标点的状态信息生成满足基本动力学约束的安全轨迹;以及 对所述满足基本动力学约束的安全轨迹进行逐状态约束,得到所述目标点在所述目标时刻偏离所述参考路径的最终横向位移和最终纵向速度,并基于所述最终横向位移和所述最终纵向速度生成车辆的最优安全轨迹,并将所述最优安全轨迹作为所述车辆的集成决策系统的输出,输入到下层控制器,以根据所述最优安全轨迹对所述车辆进行控制。 2.根据权利要求1所述的方法,其特征在于,所述对所述满足基本动力学约束的安全轨迹进行逐状态约束,包括: 确定安全可行区域状态空间内的替代状态价值函数的阈值; 基于所述安全可行区域状态空间内的替代状态价值函数的阈值和预设的更新策略,对状态价值函数、状态-动作价值函数、拉格朗日乘子函数、策略函数和可行状态-动作价值函数进行迭代更新,直至满足预设迭代条件。 3.根据权利要求2所述的方法,其特征在于,所述基于所述安全可行区域状态空间内的替代状态价值函数的阈值和预设的更新策略,对状态价值函数、状态-动作价值函数、拉格朗日乘子函数、策略函数和可行状态-动作价值函数进行迭代更新,包括: 通过最小化均方误差更新所述状态价值函数的目标函数和梯度为: 其中,为所述状态价值函数的目标函数,υ为状态价值函数的参数,Vv(s)为状态价值函数,s为状态,Qω(s′,a′)为状态-动作价值函数,s′为下一时刻状态,a′为对应动作,α为温度系数,logπμ(·)为策略函数πμ的熵,为所述状态价值函数的梯度,为状态价值函数的梯度; 通过最小化贝尔曼残差更新所述状态-动作价值函数的目标函数和梯度为: 其中,为所述状态-动作价值函数的目标函数,Qω(s,a)为状态-动作价值函数,a为动作,为策略函数πμ下的状态分布,r(s,a)为奖励函数,γ∈(0,1)表示折扣因子,为目标状态价值函数,为所述状态-动作价值函数的梯度,为状态-动作值函数的梯度; 更新所述拉格朗日乘子函数的目标函数和梯度为: 其中,为所述拉格朗日乘子函数的目标函数,λξ(s)为拉格朗日乘子函数,QωSf(s,a)为可行状态-动作价值函数,为所述拉格朗日乘子函数的梯度; 更新所述可行状态-动作价值函数的目标函数和梯度为: 其中,为更新可行状态-动作价值函数的目标函数,为可行状态-动作价值函数的目标函数,d为约束阈值,为所述可行状态-动作价值函数的梯度,为可行状态-动作价值函数的梯度。 4.根据权利要求1所述的方法,其特征在于,所述将所述第一状态信息转换至目标坐标系下,包括: 基于预设的坐标系转换函数,将所述第一状态信息转换至目标坐标系下,其中,所述预设的坐标系转换函数为: 其中,分别为Frenet坐标系中的纵向位移、纵向速度、纵向加速度、横向位移、横向速度和横向加速度,(xt,yt,vt,acct,θt,κt)分别为世界坐标系中的横向位置、纵向位置、速度、加速度、朝向角和曲率,Fcoor(·)为坐标系间的转换函数。 5.根据权利要求1所述的方法,其特征在于,所述初始横向位移和初始纵向速度之间的函数关系为: 其中,横向位移l是纵向位移s的函数,纵向位移s是时间t的函数;p和q是多项式的次数。 6.一种自动驾驶集成决策装置,其特征在于,包括: 获取模块,用于获取目标点在世界坐标系的第一状态信息,并将所述第一状态信息转换至目标坐标系下,得到所述目标点在目标坐标系的第二状态信息; 生成模块,用于基于所述第二状态信息,获取所述目标点在目标时刻偏离参考路径的初始横向位移和初始纵向速度,并基于预设的稳定策略和所述初始横向位移和初始纵向速度之间的函数关系,获得所述世界坐标系中生成轨迹的目标点的状态信息,以根据所述目标点的状态信息生成满足基本动力学约束的安全轨迹;以及 控制模块,用于对所述满足基本动力学约束的安全轨迹进行逐状态约束,得到所述目标点在所述目标时刻偏离所述参考路径的最终横向位移和最终纵向速度,并基于所述最终横向位移和所述最终纵向速度生成车辆的最优安全轨迹,并将所述最优安全轨迹作为所述车辆的集成决策系统的输出,输入到下层控制器,以根据所述最优安全轨迹对所述车辆进行控制。 7.根据权利要求6所述的装置,其特征在于,所述对所述满足基本动力学约束的安全轨迹进行逐状态约束,所述控制模块,具体用于: 确定安全可行区域状态空间内的替代状态价值函数的阈值; 基于所述安全可行区域状态空间内的替代状态价值函数的阈值和预设的更新策略,对状态价值函数、状态-动作价值函数、拉格朗日乘子函数、策略函数和可行状态-动作价值函数进行迭代更新,直至满足预设迭代条件。 8.根据权利要求7所述的装置,其特征在于,所述基于所述安全可行区域状态空间内的替代状态价值函数的阈值和预设的更新策略,对状态价值函数、状态-动作价值函数、拉格朗日乘子函数、策略函数和可行状态-动作价值函数进行迭代更新,所述控制模块,具体用于: 通过最小化均方误差更新所述状态价值函数的目标函数和梯度为: 其中,为所述状态价值函数的目标函数,υ为状态价值函数的参数,Vv(s)为状态价值函数,s为状态,Qω(s′,a′)为状态-动作价值函数,s′为下一时刻状态,a′为对应动作,α为温度系数,logπμ(·)为策略函数πμ的熵,为所述状态价值函数的梯度,为状态价值函数的梯度; 通过最小化贝尔曼残差更新所述状态-动作价值函数的目标函数和梯度为: 其中,为所述状态-动作价值函数的目标函数,Qω(s,a)为状态-动作价值函数,a为动作,为策略函数πμ下的状态分布,r(s,a)为奖励函数,γ∈(0,1)表示折扣因子,为目标状态价值函数,为所述状态-动作价值函数的梯度,为状态-动作值函数的梯度; 更新所述拉格朗日乘子函数数的目标函数和梯度为: 其中,为所述拉格朗日乘子函数的目标函数,λξ(s)为拉格朗日乘子函数,Qωsf(s,a)为可行状态-动作价值函数,为所述拉格朗日乘子函数的梯度; 更新所述可行状态-动作价值函数的目标函数和梯度为: 其中,为更新可行状态-动作价值函数的目标函数,为可行状态-动作价值函数的目标函数,d为约束阈值,为所述可行状态-动作价值函数的梯度,为可行状态-动作价值函数的梯度。 9.根据权利要求6所述的装置,其特征在于,所述将所述第一状态信息转换至目标坐标系下,所述获取模块,具体用于: 基于预设的坐标系转换函数,将所述第一状态信息转换至目标坐标系下,其中,所述预设的坐标系转换函数为: 其中,分别为Frenet坐标系中的纵向位移、纵向速度、纵向加速度、横向位移、横向速度和横向加速度,(xt,yt,vt,acct,θt,κt)分别为世界坐标系中的横向位置、纵向位置、速度、加速度、朝向角和曲率,Fcoor(·)为坐标系间的转换函数。 10.根据权利要求6所述的装置,其特征在于,所述初始横向位移和初始纵向速度之间的函数关系为: 其中,横向位移l是纵向位移s的函数,纵向位移s是时间t的函数,p和q是多项式的次数。 11.一种车辆,其特征在于,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述程序,以实现如权利要求1-5任一项所述的自动驾驶集成决策方法。 12.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行,以用于实现如权利要求1-5任一项所述的自动驾驶集成决策方法。 |