详情

原文传递基于深度学习的码头场景多目标感知技术研究

论文题名：	基于深度学习的码头场景多目标感知技术研究
关键词：	码头机械;行为识别;多目标感知;计算机视觉;深度学习
摘要：	随着智慧港口的发展，对码头场景下的目标感知是实现码头生产活动与智能技术融合的重要组成部分。随着近年来深度学习技术的发展，场景中的视觉感知技术的应用引起了广泛的关注，为了拓展基于深度学习的感知技术在码头场景中的应用研究，本文结合目前计算机视觉感知领域的研究基础，主要研究内容及结论如下：　　（1）对于码头场景中的多目标检测任务，考虑到目前码头目标相关数据集较少，且为了增强检测算法码头场景多目标检测的鲁棒性，本文建立了包含12类码头移动目标的共计8743个标注实例的目标检测数据集，并提出了一种基于码头目标数据集的改进的YOLOv5目标检测模型，该模型在特征融合结构中引入了多尺度卷积以实现网络的更加细粒度的特性提取，并将能够增强特征图通道显著性的金字塔分割注意力模块嵌入到基准模型中，实验结果表明，改进模型最终实现了实现了91.12%的mAP，精确率取得了3.37%提升的同时将码头小尺度目标检测精度提升了9%，在中等尺度和大尺度目标检测精度上分别提升了2%。改进模型实现了在码头不同场景中更鲁棒性的多尺度目标检测效果，能够满足码头现场应用的实时性和准确性要求，整体上该模型对码头多目标的准确检测有较好的稳健性。　　（2）对于码头机械行为的识别任务，本文建立了6类码头机械行为的1310个视频样本的动作识别数据集，提出了一种融合时空注意力的基于CNN-LSTM方法的码头机械行为识别模型，该方法根据码头机械活动的时空特性，在基准模型上一方面建立了结合时间自适应模块的时间注意力分支，以增强时空特征下的时域信息显著性，另一方面建立了结合卷积LSTM的空间注意力分支，以获得有时域关联的空间显著性特征，然后将两路注意力分支融合后对机械活动分类，实验结果表明，CNN-LSTM模型能够实现对码头机械动作的识别，改进后模型的测试的平均识别准确率达到90.55%，获得了3.94%的精度提升，增强了码头机械动作时空特征关键信息的显著性，更适用于码头机械动作的准确识别。　　（3）对于码头多目标的跟踪任务，本文选取了DeepSORT方法对码头多目标进行跟踪，建立了码头移动目标重识别数据集训练表观特征提取网络，然后提出了一种在级联匹配模块中基于GhostNet模块构建的表观特征网络以压缩网络的计算复杂度，然后在匹配模块引入考虑目标框中心距离的DIoU指标以优化匹配效果的改进跟踪方法，实验结果表明，DeepSORT方法能够适用于码头多目标跟踪，将改进的算法与改进的检测器结合后的跟踪方法对码头多目标的跟踪准确率达到70.26%，获得了相比于原方法4.80%的精度提升，有效降低了跟踪ID变化数量，且减少了33.67%的浮点运算次数，能够达到更高效的码头多目标稳定跟踪效果。　　（4）本文设计了码头环境下多目标视觉感知系统，从码头视频数据的读取与处理方法做了介绍，结合本文的研究成果，基于Python编程语言的GUI设计了包括码头目标检测、码头目标跟踪模块和码头目标动作识别在内的应用模块，实现了对码头场景中的多目标感知功能。
作者：	李志明
专业：	水利工程;港口、海岸及近海工程
导师：	汪承志
授予学位：	硕士
授予学位单位：	重庆交通大学
学位年度：	2022