论文题名: | 基于多光谱数据融合的行人检测方法研究 |
关键词: | 汽车自动驾驶系统;行人检测;可见光图像;红外图像;数据融合;卷积神经网络;注意力机制;特征对齐 |
摘要: | 行人检测是自动驾驶汽车环境感知的主要任务之一,也是构建复杂交通环境下自动驾驶系统的核心关键技术之一。融合可见光图像和红外图像的多光谱行人检测系统在理论上能够实现多光谱信息的优势互补,显著提高全天候行人检测的鲁棒性和准确性,发展潜力巨大。然而,现有研究在多光谱行人特征的鲁棒表达方法和自适应融合机制等关键环节还不够深入,所构建的多光谱行人检测器在准确率、鲁棒性等方面仍存在较为明显的不足,难以满足复杂行驶环境下的实车自动驾驶需求。针对这一问题,本文依托国家重点研发计划“自动驾驶电动汽车集成与示范”(2018YFB0105200),开展基于多光谱图像融合的行人检测方法研究,重点围绕基于卷积神经网络的跨模态多层特征融合架构、基于注意力机制的跨模态特征融合方法、基于特征偏移预测的跨模态特征对齐方法等三个方向开展相关研究工作。 首先,建立了基于跨模态、多层特征融合架构的多光谱行人检测基准模型。针对单一模态特征表现力不足的问题,分析了不同模态行人信息在复杂环境因素影响下的变化规律,建立了考虑可见光和红外信息差异性、互补性的跨模态双流特征融合架构;在此基础上,利用多层特征融合架构进一步挖掘跨模态融合特征在多空间尺度上的特征表现力,实现了跨模态、多尺度的多维特征融合。基于所提出的跨模态多层特征融合架构,在Faster R-CNN框架下构建了多光谱行人检测基准模型,并在KAIST公开数据集上进行了模型训练与测试,实验结果表明所提出的跨模态多层特征融合架构能够有效提升行人检测准确率。 其次,提出了基于通道注意力和空间注意力的跨模态特征自适应融合方法。针对可见光和红外特征融合过程中存在的多模态特征干扰问题,突破传统固定权重融合方法在发挥跨模态信息差异性、互补性方面的局限性,研究了融合通道信息的通道域注意力机制和融合多尺度空间信息的空间域注意力机制,构建了无监督的通道域注意力模块和以显著性检测为监督方式的空间域注意力模块,进而实现了基于通道和空间注意力的自适应动态权重调整。结合前一阶段的多光谱行人检测基准模型,开展了相关实验,证明了所提出的注意力模块能够有效增强跨模态特征表现力并抑制特征干扰,进一步提高了行人检测的准确率。 最后,提出了基于特征偏移预测的跨模态特征对齐方法。针对“可见光-红外图像”对普遍存在的位置偏移问题,分析了特征位置偏移对跨模态融合特征一致性的影响机理,建立了无监督训练的特征位置偏移预测方法对特征偏移进行精准预测,构建了可嵌入到多光谱行人检测基准模型并一体式端到端训练的特征对齐模块。基于跨模态多层特征融合的多光谱行人检测基准模型,联合空间注意力模块和特征对齐模块,在KAIST测试集和CVC-14测试集上分别开展了模型性能测试实验,实验结果证明了所构建的多光谱行人检测器与同类方法相比具有更优的检测准确率和鲁棒性。 |
作者: | 张永涛 |
专业: | 车辆工程 |
导师: | 黄松;尹智帅 |
授予学位: | 硕士 |
授予学位单位: | 武汉理工大学 |
学位年度: | 2021 |