当前位置: 首页> 学位论文 >详情
原文传递 埃塞俄比亚街景视频中的交通标志检测和识别
论文题名: 埃塞俄比亚街景视频中的交通标志检测和识别
关键词: 街景视频;交通标志;目标检测;目标识别;埃塞俄比亚
摘要: 目标检测是计算机视觉中一个基本但又至关重要的研究课题,该研究旨在使机器自动学习检测识别输入的视觉信息中是否存在某目标并定位目标的位置。该研究涉及图像及视频的语义理解、自动驾驶等诸多应用领域。而交通标志检测是基于计算机视觉的特定目标检测任务,是道路安全设施检测、无人驾驶等应用中的关键核心技术。本文重点研究埃塞俄比亚道路交通标志检测与识别,研究成果可直接移植针到对埃塞俄比亚道路交通安全检测及自动驾驶等相关应用领域,同时对其它国家的交通标志检测与识别也有一定的指导和借鉴作用。
  交通标志检测和识别是针对特定目标的计算机视觉任务,与动物、植物等其它目标检测任务不同,交通标志因各国采用的规范不同,且各国的交通状况有非常大的差异,此外,在道路特点、气候变化、人文环境等方面也存在较大不同,因此,在该研究领域存在通用性不强、鲁棒性不足等问题。在埃塞俄比亚,这种情况更为突出。我国交通标志规范与中国、美国等国家不统一,存在交通标志设置不规范、交通标志日常破损严重等问题,加之道路状况复杂,气候种类丰富,拥塞和复杂的道路背景以及不良的视觉条件都对基于计算机视觉的交通标志检测与识别提出了极大的挑战。
  基于此,本文针对埃塞俄比亚道路交通标志的检测和识别任务,开展了如下三项工作:1)全天候条件下交通标志自动检测模型的研究与构建;2)埃塞俄比亚道路交通标志数据集的采集、标注与构建;3)全天候条件下埃塞俄比亚道路交通标志自动检测模型的训练与测试。具体研究工作如下所述:
  一、全天候条件下交通标志自动检测模型的研究与构建
  本文首先对目前主流的目标检测方法进行了深入的调研和分析,通过深入的调研分析发现,目前目标检测方法分为两种,基于区域推荐的目标检测方法和基于回归的目标检测方法,这两种方法各有优劣。
  对于基于区域推荐的方法,具有代表性的包括R-CNN,Fast R-CNN,Faster R-CNN。这三种方法的主要思想为,对输入图像处理获得目标的推荐区域,对推荐区域进行分类得到检测结果。基于区域推荐的方法的特点为检测效果好,其中Faster R-CNN是这三种方法中效果最好、速度最快的方法,也是目前最好的目标检测模型之一,但计算量大,检测速度慢。具有代表性的基于回归的方法为YOLO,SSD。这两种方法的主要思想为,输入图像,提取特征,将图像划分成网络,每个网络回归输出固定数量的检测结果,通过非极大抑制方法得到最终结果。基于回归的方法的特点为检测效果较好,检测速度非常快,特别是YOLO,可以进行实时检测。其中SSD网络既能取得和Faster R-CNN接近的检测精度,还能达到YOLO的检测速度。SSD(Single Shot Multibox Detector)是一种采用单一神经网络进行目标检测的方法。该方法基于神经网络的前向传播过程,产生固定大小的目标边框并对框中的目标的详细类别进行打分,再加入非极大抑制方法得到最终的检测结果。该网络使用了VGG作为其基础网络,然后在VGG后增加了辅助结构用于目标检测,其中多尺度特征检测器将多个卷积层加到了VGG去除全连接层后的末尾,这多个卷积层特征图大小依次减小,得到多个尺度的预测值;而在基于卷积的检测预测中,每个添加的卷积层都用了一组卷积核来产生固定的预测集合,这些预测中包括每个类别的得分以及边框的坐标。
  通过这样的结构设计,SSD网络能够直接进行端到端的目标检测,给定图像及其标签即可进行训练,并且计算量小,结果涉及多尺度,检测效果好、速度快
  在广泛的调研和比对分析基础上,针对全天候条件下交通标志自动检测的这一具体任务,SSD网络因其具有检测精度高及检测速度快的优势,更适用于本文的研究内容,因此本文采用SSD作为全天候交通标志自动检测的基本模型。
  首先,我们在Caffe框架上构建了SSD模型。Caff是一种深度学习框架,该框架由伯克利人工智能研究所和社区贡献者共同开发。Caffe代码模块化程度高,主要由四部分组成:数据存储对象Blob,网络的基本单元Layer,完整的深度网络Net和网络优化器Solver。在Caffe框架中配置SSD首先要从github上下载SSD代码,再根据服务器本身的配置对SSD的配置文件进行修改,然后编译并测试SSD代码,最后下载预训练好的模型完成SSD的配置。本文构建SSD模型所采用的服务器的软件环境为:Ubuntu Mate操作系统,Python2.7,Cuda7.5,gcc4.8;硬件环境为:NVIDIA TESLA K40c(12GB)两块,Inter(R)Xeon(R)CPU E5-2630v3@2.40GHz,内存128GB2133MHz。
  通过第一部分的研究,确立了全天候条件下交通标志自动检测模型的选型以及原理和结构分析,并在Ubuntu服务器的Caffe框架上构建了SSD模型
  二、埃塞俄比亚道路交通标志数据集的采集、标注与构建
  如前所述,埃塞俄比亚道路交通标志具有自己的特点,因此,现有的公开交通标志数据集不能适用于本论文的研究。本文作者对埃塞俄比亚交通标志的特点进行了详细的分析和调研,制定了数据集的构建方案,通过现场多次采集,历时两个多月,采集了近三千幅图像,通过筛选和处理、标注,完成了对埃塞俄比亚道路交通标志数据集的构建,该数据集具有以下特点:
  a)交通标志为埃塞俄比亚独有;
  b)交通标志图像在埃塞俄比亚街道现场采集,具有埃塞俄比亚加同特色,如标志设置环境背景信息繁多等;
  c)交通标志的各个类别具备不均衡性,符合埃塞俄比亚交通标志比例不均的特点;
  d)交通标志图像为全天候多种气候条件下采集,包括不均匀光照、低光照、模糊、遮挡等情况。
  下面分别从采集、标注和构建三个方面来说明本文在埃塞俄比亚道路交通标志数据集数据集构建方面的工作。
  (1)图像采集
  数据集采集地点为埃塞俄比亚,时间为2017年7月10日至2017年9月2日之间,图像的大小为832*624,通过筛选,数据集中最终收入图像2394幅,涵盖六类常见的埃塞俄比亚道路交通标志,各个类别的图像分布与埃塞俄比亚交通标志分布一致。这些图像在全天候多种视觉条件下采集,包括白天、夜晚、不均匀光照、模糊、抖动、遮挡等多种情况。
  (2)Ground-truth标注
  本文利用基于Python的BBox_Label_Toolbox,对采集的图像中出现的所有交通标志进行逐一标注,得到图像中所有交通标志的边框的坐标及类别标签,共标注2394幅图像。
  (3)数据集构建
  完成数据集的标注工作后,由于本文采用的Caffe框架进行实验,需要构建LMDB格式的数据集。SSD模型中提供了VOC数据格式转换成LMDB格式的脚本。因为本文构建数据集的主要工作是将数据图像及标签转换成VOC格式,再转换为LMDB格式。主要步骤包括:
  1)将数据分别存放于VOC格式的文件夹中;
  2)利用txt转xml代码将标签的txt格式转换为对应的xml格式;
  3)生成训练和测试图像索引,其中训练集1894幅,测试集500幅;
  4)构建LMDB格式训练集和测试集
  5)通过第二部分的研究,构建了本论文研究所需的埃塞俄比亚道路交通标志数据集,为后续的研究奠定了数据基础。
  三、全天候条件下埃塞俄比亚道路交通标志自动检测模型的训练与测试
  在研究内容一和研究内容二的基础上,完成和实现全天候条件下埃塞俄比亚道路交通标志自动检测模型的训练与测试。
  (1)模型训练
  模型训练超参数的设置:
  1)根据SSD模型所用服务器的配置,首先根据服务器的GPU数量设置训练GPU数量:GPU数量为2;
  2)网络的输入的大小设置为300*300;
  3)类别数量设置成7,其中六类为交通标志类别,一类为背景;
  4)权重衰减设置为0.0005;
  5)初始学习率为0.0004,采用多步调整的方式,在训练迭代到80000、100000次分别将学习率缩小10倍;
  6)迭代次数为120000次;
  7)设置学习方法为随机梯度下降方式,批数为32;
  8)学习动量设置为0.9。
  模型采用在ILSVRC数据集上训练好的模型作为预训练模型,并采用正负样本平衡策略指导训练,loU阈值为0.5,正负样本比例为1∶3。
  基于研究内容二建立的埃塞俄比亚道路交通标志数据集,采用如上设置的SSD模型进行了训练,训练结束后,模型训练损失为0.809852,模型收敛,训练成功,获得了埃塞俄比亚道路交通标志自动检测网络模型。
  (2)模型测试
  基于第一步训练得到好的迭代120000次的埃塞俄比亚道路交通标志自动检测网络模型模型进行交通标志检测测试,模型在500幅测试图像各个类别的模型的平均正确率(mAP)为86%,查全率为81.2%,查准率为78.3%,F值为0.784。
  针对埃塞俄比亚交通标志自动检测问题,本文对当今主流目标检测模型、数据集以及深度学习模型的训练及测试方法进行了研究,重点分析了SSD模型的结构和原理,并基于SSD模型构建了埃塞俄比亚交通标志自动检测模型,从埃塞俄比亚交通特色出发,自行现场采集了埃塞俄比亚交通标志图像,并进行了处理和标注,构建了埃塞俄比亚交通标志图像检测数据集,在此基础上,完成了SSD模型的训练,通过测试实验验证了模型的有效性。
  本文从模型选择到数据集,再到模型的训练和测试,完整地实现了一个埃塞俄比亚交通标志自动检测模型。本文的研究可进一步推广至更多类别的交通标志检测,并应用到埃塞俄比亚交通安全检测以及自动驾驶任务中,下一步的工作展望如下:
  (1)本文构建的基于SSD的交通标志检测模型在一定程度上解决了埃塞俄比亚交通标志检测问题。但是仍存在着进一步的改进空间,随着计算机视觉技术和机器学习理论研究的发展,可替换为更加准确高效的模型;
  (2)本文构建的埃塞俄比亚交通标志数据集,可以满足当前模型训练测试的需要,但是图像的数量、种类等仍需扩充,深度学习模型是基于数据驱动的,进一步完善数据集对于提高模型的训练效率和提高最终的检测准确度是非常必要的;
  (3)本文的所采用的SSD模型是针对通用目标进行设计的模型,下一步考虑结合交通标志的先验信息,对网络进行改进,构建更具鲁棒性的检测模型。
  基于计算机视觉的目标检测和识别技术目前正在广泛地应用于各智能系统中,在实际的应用领域还有许多进一步研究的问题,本文的研究是对交通标志自动检测识别问题的一个有益的尝试,期待以后有更深入的研究,并能最终服务于人们的生活。
作者: DINGETU TIGISTU DETA
专业: Computer Technology
导师: HUI YIN
授予学位: 硕士
授予学位单位: 北京交通大学
学位年度: 2018
正文语种: 中文
检索历史
应用推荐