主权项: |
1.一种基于深度强化学习的拟人化自动驾驶跟驰模型,其特征在于,步骤如下: 步骤1:采集手动驾驶阶段的数据,作为历史驾驶数据存储在数据库中。在上海自然驾驶实验数据中随机选择多名驾驶员的若干个快速路跟驰片段,从中随机选择一部分作为为训练数据,剩余部分作为验证数据。 步骤2:使用深度确定性策略梯度(DDPG)深度强化学习方法,构建拟人化跟驰模型。 步骤2.1:构建仿真环境以使强化学习(RL)智能体通过一系列状态、行动和奖励值与环境交互。将前车数据作为外部输入,后车速度、相对距离和相对速度用经验数据初始化,由RL智能体计算加速度,根据强化学习定义的状态更新规则迭代生成后车的未来状态,将仿真环境中的车间距、速度与SH-NDS数据的经验车间隔、速度通过设置评价指标设置奖励函数,计算奖励值和模拟误差,当仿真车辆跟随事件在其最大时间步骤终止时,状态用经验数据集重新初始化。 步骤2.2:选取评价指标,设置奖励函数。采用间距和速度的均方根百分比误差(RMSPE,Root Mean Square Percentage Error)作为评估指标,采用间距和速度差异作为奖励函数的DDPG模型。Sn-1(t)和Vn(t)表示时间步t时的仿真环境中的模拟间距和速度,和表示时间步t时的实际数据集中观察到的间距和速度。公式如下: 步骤2.3:选择神经网络结构。选择演员和评论家分别代表两个独立的神经网络(演员网络、评论者网络),演员和评论家网络有三层:输入层,输出层和包含30个神经元的隐层。在时间步长t内,演员网络将一个状态st=(vn(t),△vn-1,n(t),△Sn-1,n(t))作为输入,并输出一个连续动作:后车加速度an(t)。评论家网络采用状态st和动作at作为输入,并输出状态动作价值Q(st,at)。其中,Sn-1,n(t)和vn(t)是时间步长t时的仿真环境中的模拟间距和速度。 步骤2.4:设置神经网络更新策略及超参数。评论者网络的权重系数使用随机梯度下降算法进行更新以最小化损失函数,并采用自适应学习算法Adams。演员网络参数更新如下:演员输出的加速度被传递给评论网络,计算梯度传递给演员网络,并根据更新演员网络的参数。根据前人研究及通过测试随机采样的训练数据集确定超参数的值。动作及评判网络结构如图1所示。 步骤2.5:设置探索策略。采用Omstein-Uhlenbeck过程(产生以零为中心的时间相关值,从而在物理环境中进行良好探索)在原来的演员政策中增加一个噪音过程,形成探索策略。Omstein-Uhlenbeck过程产生以零为中心的时间相关值,从而在物理环境中进行良好的探索。 步骤3:训练模型。基于一个驾驶员的训练数据集对模型进行训练,保存或输出模型参数。将训练数据集中的若干跟驰时间顺序模拟,事件间切换时根据经验数据对状态进行初始化,一次训练结束后分别计算模型在训练和测试数据集上的误差。重复多次训练,并且选择产生最小训练和测试误差综合的模型作为最终模型。 步骤4:测试模型。基于上一步骤选定驾驶员的验证数据对训练后的模型进行验证,其误差用于评价模型的轨迹再现准确性。基于其余驾驶员的驾驶数据集,对模型重复验证,驾驶员间验证误差用来评价模型的泛化能力。 |