详情

原文传递面向图像语义分割的新型卷积神经网络及其应用研究

论文题名：	面向图像语义分割的新型卷积神经网络及其应用研究
关键词：	卷积神经网络;图像语义分割;关键乘法;视频流;辅助驾驶系统
摘要：	在过去的若干年中，卷积神经网络(CNN)在图像分类和对象检测领域表现出众，并且具备良好的应用价值，尤其在计算机视觉方面的应用已经取得了一系列显著的成果。从生物识别系统到实时应用程序，都受到深度神经网络(DNN)的深刻影响。而卷积神经网络作为使分类和学习更容易和更可行的关键技术工具之一，极大地提升了对象识别应用程序中的识别率。在GPU技术的支持下，CNN被证明非常适用于基于视觉的应用程序。然而CNN需要消耗大量内存和计算资源，在传统CPU上运行极慢，不适合进行训练。因此，想要在存储和计算能力有限的实时系统上实现非常高效的CNN几乎不可能。在这种情况下，需要一些改进的CNN解决方案，以提供更简单的结构，更好的性能和更高的准确性。　　本论文围绕两个核心课题展开研究:提出一种具有高精度的新型CNN架构;降低传统CNN架构的计算资源消耗。本文的研究内容和贡献如下: 　　1)针对当前视觉应用对架构扩展性的需求，提出了一种面向实时系统的可扩展神经网络架构，该架构使用卷积神经网络来设计资源节约型视觉应用系统，并介绍了该架构的理论和设计方法。　　2)针对辅助驾驶系统中道路场景理解缺少足够带标注训练数据的问题，提出了解耦卷积神经网络DCNN(Decoupled CNN)，从而能够用较少的或半标注的数据来训练CNN。DCNN使用了不均匀标注的方式，包含少量带标注数据以及大量弱标注数据。　　3)针对语义像素分割应用中CNN模型过于复杂的问题，提出了一种简化的全卷积神经网络模型。该模型与传统CNN流水线的不同之处在于，只使用了卷积层，而没有池化层　　4)针对CNN在实时语义分割应用中过分参数化及网络模型冗余问题，提出了一种用于像素级分割的资源节约型语义分割模型。该模型是一种编码器-解码器结构，编码器建立在VGG-16网络基础上，而解码器则来自于SegNet。该模型能够预测给定输入图像的像素级分类标签。该模型旨在用于道路场景理解，适用于基于视频流的辅助驾驶系统。　　5)针对CNN计算复杂性较高导致难以在便携式设备和实时系统上使用的问题，提出了一种压缩CNN以降低存储和处理需求的解决方案。论文中介绍了各种网络架构的实验。所提出的编码器-解码器架构旨在减少可训练参数的数量。通过尝试不同的层和网络组件，利用减少的网络结构来分析最佳性能。关键思想是减少整体网络存储和计算需求。另一方面，二值化分割网络可以大大减少处理和存储要求，通过排除CNN训练中的关键乘法运算，并用更多的计算友好运算（加法，减法）代替，这种二值化过程将大大改进模型的性能。　　文中所提出的网络模型在CamVid和Pascle-Voc12数据集进行实验。所提出的网络模型也可从www.github.com/robail/获取。
作者：	Robail Yasrab
专业：	计算机软件与理论
导师：	顾乃杰
授予学位：	博士
授予学位单位：	中国科学技术大学
学位年度：	2017
正文语种：	中文