详情

原文传递基于多模态融合鸟瞰图的复杂道路目标检测方法

专利名称：	基于多模态融合鸟瞰图的复杂道路目标检测方法
摘要：	本发明公开一种基于多模态融合鸟瞰图的复杂道路目标检测方法，从不同实际驾驶场景中获取多视角相机图像与激光雷达点云，分别对图像与点云进行特征提取，并映射为鸟瞰图空间中的稠密向量，获取图像与点云融合的热力图与点云特征向量，实现查询向量初始化，利用空间多通道注意力机制计算出查询向量与图像特征向量的相似性，并将相关性最强的位置的查询向量输入前馈神经网络，对目标的中心坐标、三维尺寸与偏航角进行预测形成包围盒；基于采集的数据集建立目标检测模型，对道路上的车辆进行检测。本发明能够有效利用多模态特征使各个传感器在检测任务中彼此互补，提高在复杂路况中的检测精度与鲁棒性。
专利类型：	发明专利
国家地区组织代码：	江苏;32
申请人：	南京工业大学
发明人：	缪小冬;李伟文;顾曹雨
专利状态：	有效
申请日期：	2023-10-11T00:00:00+0800
发布日期：	2023-11-14T00:00:00+0800
申请号：	CN202311310813.6
公开号：	CN117058646A
代理机构：	南京华恒专利代理事务所(普通合伙)
代理人：	宋方园
分类号：	G06V20/56;G06V10/77;G06V10/80;G06V10/25;G06V10/82;G06N3/0464;G06N3/08;G;G06;G06V;G06N;G06V20;G06V10;G06N3;G06V20/56;G06V10/77;G06V10/80;G06V10/25;G06V10/82;G06N3/0464;G06N3/08
申请人地址：	210000 江苏省南京市浦口区浦珠南路30号
主权项：	1.一种基于多模态融合鸟瞰图的复杂道路目标检测方法，其特征在于，包括以下步骤：步骤S1，从不同实际驾驶场景中获取多视角相机图像与激光雷达点云，并对收集到的图像与点云进行标注与划分；步骤S2，分别对图像与点云进行特征提取，并映射为鸟瞰图空间中的稠密向量，获取图像与点云融合的热力图与点云特征向量，实现查询向量初始化，具体方法为；步骤S2.1、利用Voxelnet网络对点云进行特征提取，得到点云鸟瞰图稠密向量；利用Swin transformer模块对图像进行特征提取，并通过lift and splat操作得到图像鸟瞰图稠密向量；步骤S2.2、通过将点云鸟瞰图稠密向量与图像鸟瞰图稠密向量用sigmoid函数激活并进行Concat操作，得到基于鸟瞰图的融合特征稠密向量，再将其输入神经网络层得到融合特征热力图；步骤S2.3、根据融合特征热力图中每个像素点的置信度，排序出预选框类别索引与位置索引，根据位置索引匹配点云特征，并将其存储为查询向量，实现查询向量初始化；步骤S3、利用空间多通道注意力机制计算出查询向量与图像特征向量的相似性，并将相关性最强的位置的查询向量输入前馈神经网络，对目标的中心坐标、三维尺寸与偏航角进行预测形成包围盒；步骤S4、基于采集的数据集建立目标检测模型，对道路上的车辆进行检测。 2.根据权利要求1所述的基于多模态融合鸟瞰图的复杂道路目标检测方法，其特征在于，所述步骤S1包括以下具体步骤：从车辆的正前方、左前方、右前方、左后方、正后方与右后方的相机获取多视角相机图像，从车辆顶部的激光雷达中获取点云信息；通过标签工具labelimg对部分的图像与点云中的目标进行框选与定义，划分为训练集与验证集，剩余的图像与点云划分为测试集。 3.根据权利要求1所述的基于多模态融合鸟瞰图的复杂道路目标检测方法，其特征在于，所述步骤S2.1中Voxelnet网络提取点云特征的具体方法为：步骤A）、将点云数据覆盖的三维空间范围剪裁为[X,Y,Z]，设每个体素的大小分别为dx、dy和dz，构建尺寸为H0=X/dx，W0=Y/dy，D0=Z/dz的体素网格；步骤B）、对体素网格的每个体素进行随机采样n个点，体素中点的个数超过n则取n，不足则用0补全；步骤C）、采样完成后对体素特征进行处理：先在体素特征编码层第一层拓展初始点云信息，通过对一个体素内采样的点云进行单元最大池化并且求差得到每个点云的偏差特征，然后用点云坐标与体素中心坐标求差得到距离特征，初始特征维度被拓展至10，接着利用多层感知机MLP将每个点的特征拓展至64维，通过单元最大池化获取体素的全局特征与每个点的局部特征进行拼接，每个点的特征被拓展至128维，最后通过最大池化得到体素特征，将N个非空体素堆叠在一起得到，最后的整体体素特征；步骤D）、将特征进行卷积与下采样操作得到稠密向量，进而得到点云数据的点云鸟瞰图稠密向量。 4.根据权利要求1所述的基于多模态融合鸟瞰图的复杂道路目标检测方法，其特征在于，所述步骤S2.2通过Swin transformer模块获取图像鸟瞰图稠密向量以及融合特征热力图的具体方法为：首先，将图像输入补丁分区层划分成16个补丁，每个补丁的宽高减少为原来图像的1/4，堆叠补丁使维度由3变为48；然后，将堆叠后的补丁送入线性嵌入层，后续再经过四个阶段的补丁合并与SwinTransformer区块，补丁合并过程中逐步提高特征提取的感受野；在由窗口自注意力机制与滑动窗口自注意力机制组成的Swin Transformer区块中，窗口之间的特征产生交互；最后，形成经过堆叠的Swin Transformer区块，将提取后的多视角图像特征通过liftand splat操作，生成伪深度并映射至鸟瞰图，得到图像鸟瞰图稠密向量，将点云鸟瞰图稠密向量与图像鸟瞰图稠密向量用sigmoid函数激活并进行Concat操作，得到基于鸟瞰图的融合特征稠密向量，再将其输入神经网络层得到融合特征热力图。 5.根据权利要求1所述的基于多模态融合鸟瞰图的复杂道路目标检测方法，其特征在于，所述步骤S3计算由步骤2.3中初始化后的查询向量与图像鸟瞰图稠密向量的相似性时，先将查询向量的位置与对应图像特征的位置进行匹配，再将查询向量与图像特征向量输入空间多通道多头注意力机制的解码层，根据查询向量与图像特征的相关性，不断迭代更新查询向量。 6.根据权利要求1所述的基于多模态融合鸟瞰图的复杂道路目标检测方法，其特征在于，所述步骤S3将相关性最强的位置的查询向量输入前馈神经网络后，通过匈牙利算法对预测边界框分配最优的真实边界框：记一系列真实目标边界框的标签为，/>为N个预测边界框参数，这两个集合中的最低成本二部匹配的最优分配可以定义为： (1) 其中是真实值/>与预测值/>的匹配成本，匹配成本需要考虑到预测框与真实框的相似性，令真实框中的每一个框和所有预测框进行匹配成本计算，计算公式为： (2) 其中为目标类标签，/>的概率为/>，预测框为/>；通过计算目标类是真实类的概率，与预测框距真实框的位置偏差与尺寸偏差，得出匹配成本最小的预测框为该真实框的最佳匹配框，当所有真实框遍历完毕后，得到所有最佳匹配框；匹配完所有的预测框与真实框后，计算所有配对的匈牙利损失，与常规目标检测算法损失的定义类似，为分类损失、回归损失与IoU损失的线性组合，公式为： (3) 其中用Focalloss计算分类损失，用L1损失计算回归损失，用广义的IoU损失计算IoU损失；λ1、λ2、λ3是单个损失项的系数。 7.根据权利要求1所述的基于多模态融合鸟瞰图的复杂道路目标检测方法，其特征在于，步骤S4建立目标检测模型包括以下具体步骤：步骤S4.1、对训练数据集进行mosaic数据增强、随机翻转、遮挡处理步骤S4.2、选定深度学习预训练模型，采用随机梯度下降法进行训练，学习率为0.00005，指数衰减因子为0.8，epoch设为10，batch-size设为4，完成模型训练得到检测模型。
所属类别：	发明专利