详情

原文传递一种基于规则辅助强化学习的自动驾驶决策方法

专利名称：	一种基于规则辅助强化学习的自动驾驶决策方法
摘要：	本发明公开了一种基于规则辅助强化学习的自动驾驶决策方法，针对自动驾驶车辆在接近路口之前需要进入指定车道的目标车道进入任务进行了深入研究和应用。考虑到强化学习策略需要理解车辆进入目标车道的紧迫性以及与基于规则的策略的结合难点，融合了规则引导与强化学习策略，实现了两者的互补优势。为了更准确地指导自动驾驶车辆做出与目标导向的驾驶决策，本发明提出了一个包括安全性、效率、舒适性和紧急性在内的四项混合奖励函数。为了进一步优化基于强化学习的策略，本发明还设计了规则修订策略，不仅监控强化学习的驾驶决策策略，还能引导策略从实际的干预中获得学习并不断完善。本发明在多种宏观和微观评价指标上都展现了出色的性能。
专利类型：	发明专利
申请人：	电子科技大学长三角研究院(衢州);电子科技大学(深圳)高等研究院
发明人：	郑凯;苏涵;曾曦霂
专利状态：	有效
申请日期：	2023-09-04T00:00:00+0800
发布日期：	2023-11-24T00:00:00+0800
申请号：	CN202311134645.X
公开号：	CN117104270A
代理机构：	成都众恒智合专利代理事务所(普通合伙)
代理人：	龚攀
分类号：	B60W60/00;B60W30/18;B60W50/00;G06F18/214;G06N3/092;B;G;B60;G06;B60W;G06F;G06N;B60W60;B60W30;B60W50;G06F18;G06N3;B60W60/00;B60W30/18;B60W50/00;G06F18/214;G06N3/092
申请人地址：	324000 浙江省衢州市柯城区芹江东路288号1幢18楼;
主权项：	1.一种基于规则辅助强化学习的自动驾驶决策方法，其特征在于，包括以下步骤： S1：行驶环境建模：对于每一个模拟的时间步构建一个状态矩阵作为决策模型的训练输入； S2：强化学习策略模型：所述策略模型的网络结构包括策略网络和价值网络，所述策略网络的输入是一个时间步的状态矩阵；所述策略网络的输出是三个变道动作分别的变速动作，所述价值网络的输入是一个时间步的状态矩阵，以及三个变道变速动作的离散-连续动作对；所述价值网络的输出是三个动作对的价值函数的计算结果； S3：设计强化学习奖励函数：包括安全性惩罚、效率奖励、舒适性惩罚和紧急性； S4：采用规则修正的策略帮助强化学习决策模型针对目标车道进入任务进行行为决策。 2.根据权利要求1所述的基于规则辅助强化学习的自动驾驶决策方法，其特征在于：所述步骤S1中的状态矩阵包括车辆特征和目标车道特征，车辆特征包括自动驾驶车辆A和其周围六辆的传统车辆C＝{C1,C2,…,C6}的特征向量，一辆车的特征向量包括位置特征和速度特征，一个k车道的道路的目标车道特征/>表示为/>其中，/>是一个k维向量，用于指示目标车道的分布情况；而/>是一个2维向量，作为辅助信息帮助自动驾驶车辆到达目标车道；目标车道特征进入任务中的自动驾驶车辆的行为决策被看作一个离散-连续的动作对，该动作对包括离散的变道行为，即向左变道、向右变道和车道保持，以及取值范围为[-3m/s2,3m/s2]的连续变速行为。 3.根据权利要求1所述的基于规则辅助强化学习的自动驾驶决策方法，其特征在于：所述步骤S3中安全性惩罚的计算公式如下：其中，δ是一个关于TTC的δ秒的时间限制，TTC表示了两辆车碰撞前剩余的时间；效率奖励的计算公式如下：其中，vmax是速度的上限；舒适性惩罚的计算公式如下：其中，A.vc是自动驾驶车辆在对应时间步的速度；[-acc,+acc]是指车辆加速度的限制范围；紧急性惩罚的计算公式如下：其中，tl_i.c表示目标车道tli∈TL的横向中心位置，Ll表示一条道路的总长度，Ln表示一条道路上的车道数。 4.根据权利要求1所述的基于规则辅助强化学习的自动驾驶决策方法，其特征在于：所述步骤S4中规则修正的策略包括规则引导和奖励修正，所述规则引导：当自动驾驶车辆离前方路口很远且正好行驶在目标车道上时，规则引导自动驾驶车辆保持直行并停留在目标车道上，当自动驾驶车辆即将到达前方路口时，规则强烈建议自动驾驶车辆尽快变道至目标车道上；所述奖励修正：将强化学习策略返回动作所对应的状态转换，以及修订后的动作所对应的状态转换，都保存在基于强化学习策略的经验存储中。