主权项: |
1.一种基于CatBoost模型的车辆尾气浓度超标判别方法,其特征在于,包括以下步骤: 步骤1:分别获取不同车道下的车辆尾气遥感监测数据与气象监测数据,融合成历史尾气数据集,再按照尾气排放浓度超标标准将CO、HC尾气浓度进行划分超标结果,即为模型的输出结果,将历史尾气数据集划分为尾气训练样本集和尾气测试样本集; 步骤2:使用尾气训练数据集训练CatBoost尾气浓度超标判别模型,再向训练好的CatBoost尾气浓度超标判别模型输入待检测车辆相关尾气数据,即能够判别出待检测车辆CO、HC尾气浓度超标结果。 2.根据权利要求1所述的一种基于CatBoost模型的车辆尾气浓度超标判别方法,其特征在于:所述步骤1中,分别获取不同车道下的车辆尾气遥感监测数据与气象监测数据,融合成历史尾气数据集,再按照尾气排放浓度超标标准将CO、HC尾气浓度进行划分超标结果,即为模型的输出结果。将历史尾气数据集划分为尾气训练样本集和尾气测试样本集,具体过程如下: (11)确定尾气浓度超标判别模型的输入输出,所述尾气浓度超标判别模型输入为经过数据融合的历史尾气数据集,所述历史尾气数据的输入特征包括6个类别型特征和15个数值型特征,其中6个类别型特征有车牌号码、车辆燃油规格、是否有催化转化器、排气后处理装置、驱动方式、车牌颜色;15个数值型特征有地点编号、车道序号、比功率、不透光烟度、车辆速度、加速度、车长、环境温度、湿度、风速、风向、气压、激光吸收谱反演初始尾气CO浓度、激光吸收谱反演初始尾气HC浓度和激光吸收谱反演初始尾气CO2浓度; (12)对车辆CO或HC尾气浓度的超标结果进行编码,其中历史尾气数据集的超标结果有两种,其中一种结果为合格,编码数值为0;另一类结果为超标,编码数值为1,车辆CO或HC尾气浓度的超标结果即为模型的输出结果; (13)将历史尾气数据集按照3:1的比例划分为尾气训练样本集和尾气测试样本集,其中的历史尾气数据集为尾气训练样本集,的历史尾气数据集为尾气测试样本集。 3.根据权利要求1所述的一种基于CatBoost模型的车辆尾气浓度超标判别方法,其特征在于:所述步骤2中,使用尾气训练数据集训练CatBoost尾气浓度超标判别模型,再向训练好的CatBoost尾气浓度超标判别模型输入待检测车辆相关尾气数据,即可判别出待检测车辆CO、HC尾气浓度超标结果,其训练过程包括如下: (21)首先对历史尾气数据集中的类别型特征进行处理,CatBoost在训练过程中自动完成对类别型特征采用不同的方法进行处理,对于输入特征类别型特征中数据元素是自然数的低势类别型特征的处理方法是采用One-hot编码,即将原来的类别型特征删除,使用二进制向量表示类别型特征;其中需要One-hot编码的类别型特征有车辆燃油规格、是否有催化转化器、排气后处理装置、驱动方式、车牌颜色;对于输入特征类别型特征中数据元素不是自然数的高势类别型特征,采用目标变量统计(target statistics,TS)的方法处理类别型特征,TS用于估算每个类别的目标变量期望值,该期望值作为一个新的数值型变量来代替原来的类别型特征的值,其中需要使用TS的类别特征有车牌号码。期望值的数学表达式可表示为: 其中表示用来代替的尾气样本集输入特征中类别型特征i在第k个样本集中类别的TS相等的数值型变量;a是先验概率p的权重且a>0;先验概率p为尾气数据集当中CO或者HC浓度超标结果的平均值;yi为尾气样本集输入特征中类别型特征i中的CO或者HC浓度超标结果;表示时,该表达式的值为1,否则为0,表示尾气样本集输入特征中类别型特征i在第j个样本集中的类别; (22)将类别型特征处理过的尾气数据集特征构建对称的分类与回归树(classification and regression tree,CART)决策树。然后构建下一棵树的第一阶段采用有序增强模式构建树的结构,第二阶段采用的梯度提升迭代决策树(gradient boostingdecision tree,GBDT)算法构建树的结构,按照基尼指数最小原则进行迭代的切分两棵对称的CART树的根节点,其中基尼指数数学表达式为:其中Gini(p)表示得到的基尼指数值,K为尾气数据集中的CO或者HC浓度超标结果的种类,pk为尾气数据集属于第k类的概率,直到CART树的结点中的尾气数据集的基尼指数小于预定的阈值停止迭代,最终生成对称的CART决策树,即为CatBoost模型; (23)根据以上生成的CatBoost模型,输入尾气训练样本集,将CatBoost模型中得到的所有构建的对称的CART树的结果值累加起来,得到最终的尾气排放浓度超标判别结果。 4.根据权利要求1所述的一种基于CatBoost模型的车辆尾气浓度超标判别方法,其特征在于:所述(22)中,将类别型特征处理过的尾气训练样本集构建对称的CART决策树,在构建下一棵树的第一阶段采用有序增强模式构建树的结构,第二阶段采用GBDT算法构建树的结构;所述将类别型特征处理过的尾气训练样本集构建对称的CART决策树,其具体步骤如下: 1)设结点的尾气训练样本集为D,计算尾气训练样本集输入特征对D的基尼系数,对每一个特征A,对其可能取的每个值a,根据样本点对A=a的测试为“是”或“否”将D分割成D1和D2两部分,利用表达式计算A=a时的基尼系数值; 2)在所有可能的尾气训练样本集输入特征特征A以及所有可能的切分点a中,选择基尼指数最小的特征及其对应的切分点作为最优特征与最优切分点,依最优特征与最优切分点,从现结点生成两个子结点,将训练数据集依特征分配到两个子结点中去; 3)对两个子结点递归地调用步骤1),2); 4)根据结点中的尾气训练样本集个数小于预定阈值,或者样本集的基尼指数小于预定阈值,或者没有更多特征停止调用步骤1),2),最终生成对称的CART决策树; 所述在构建下一棵树的第一阶段采用有序增强模式构建树的结构,第二阶段采用GBDT算法构建树的结构,具体步骤如下: 1)输入尾气训练样本集,对尾气训练样本集产生s+1个独立的随机序列,其中使用序列{σ1,...,σs}用来评估定义树结构的分裂,σ0用来计算所得到的树的叶子节点的值; 2)设Fi为构建i棵树后的模型,gi(Xk,yk)为构建i棵树后尾气训练样本集第k个输入数据梯度值。使用第k个训练样本集输入数据Xk,输出数据yk训练一个单独的模型Mk。使用Mk来估计Xk,并使用这个估计结果对树进行评分,然后根据评分得到尾气浓度CO或HC的超标判别结果; 所述在构建下一棵树的第一阶段采用有序增强模式构建树的结构,第二阶段采用GBDT算法构建树的结构,采用GBDT算法执行,GBDT需要通过多轮迭代执行算法,每轮迭代产生一个弱分类器,每个分类器在上一轮分类器的残差基础上进行训练,最终的总分类器是将每轮训练得到的弱分类器产生的尾气CO或HC浓度超标结果进行加权求和进行评分,总分类器的模型数学形式表示为:模型一共训练M轮,对于尾气训练样本集x第m轮产生一个弱分类器T(x;θm),θm为第m轮后弱分类器的参数,第m轮后弱分类器的最小化损失函数得到的参数数学表达式为:其中L(yi,Fm-1(xi)+T(xi;θm)为弱分类器的损失函数,Fm-1(x)为第m轮前一个模型,yi为尾气训练集中第i个的CO或者HC浓度超标结果,xi为尾气训练样本集x第i尾气训练样本集数据。 |