全卷积神经网络图像语义分割方法综述

发布时间：2021-12-25 14:40所属平台：学报论文发表咨询网浏览：次

摘要：图像语义分割是计算机视觉领域的热点研究课题，随着全卷积神经网络的迅速兴起，图像语义分割和全卷积神经网络的融合发展取得了非常卓越的成绩。通过对近年来高质量文献的收集，重点对全卷积神经网络图像语义分割方法进行总结。将收集的文献，按照应用场景的不同

　　摘要：图像语义分割是计算机视觉领域的热点研究课题，随着全卷积神经网络的迅速兴起，图像语义分割和全卷积神经网络的融合发展取得了非常卓越的成绩。通过对近年来高质量文献的收集，重点对全卷积神经网络图像语义分割方法进行总结。将收集的文献，按照应用场景的不同，划分为经典语义分割、实时性语义分割和RGBD语义分割，然后对具有代表性的分割方法进行阐述。同时归纳了常用的公共数据集和性能的评价指标，并对常用数据集上的实验进行分析总结，最后对全卷积神经网络未来可能的研究方向进行展望。

　　关键词：图像语义分割;计算机视觉;全卷积神经网络

图像识别

　　语义分割是将场景图像分割为若干个有意义的图像区域，并对不同图像区域分配指定标签的过程。然而语义分割的难点主要体现在两个方面：一是类内实例间的相异性和类间物体的相似性;二是复杂的背景大幅度提高了语义分割的难度。图像语义分割的传统方法是利用图片中边缘、颜色、纹理等特征将图片分割成不同的区域。如基于阈值[1-4]、边缘[5-8]、聚类[9-12]、图论[13-16]等常用的经典分割方法。

　　由于计算机的硬件设备限制，图像分割技术仅能对灰度图像进行处理，后期才逐渐发展到对RGB图像进行处理的阶段。随着GPU的飞速发展，深度学习(DeepLearing,DL)[17]技术为语义分割技术的发展提供有效的支撑。研究人员使用卷积神经网络(ConvolutionalNeuralNetwork,CNN)，通过端到端的训练方式推理每个像素的语义信息并实现有意义图形区域的分类。由于CNN特征学习和表达能力的优势明显，使其成为图像语义分割领域优先考虑的方法。

　　2015年IEEE国际计算机视觉与模式识别会议(IEEEConferenceonComperVisionandPatternRecognition)，Long等人提出了全卷积神经网络(FullyConvolutionalNetworksforsemanticsegmentation,FCN)[18]，至此图像语义分割进入了全卷积神经网络时期。全卷积神经网络在深度学习中表现出强大的潜能，逐渐成为解决图像语义分割问题的首选。对比前两个时期，全卷积神经网络通过像素级到像素级的训练方式，能够获得更高的精度和更好的运算效率，已经成为图像语义分割的研究热点。然而随着对该领域研究的深入，如何有效提高不同应用场景下图像语义分割的精确度一直是该领域的研究痛点。

　　目前存在的文献综述[1923]，虽然对图像语义分割进行了总结，但是普遍缺乏对于应用场景的深刻了解，如文献[19]仅对语义分割进行整体概述介绍;文献[20]将语义分割分为传统方法和深度学习的方法展开分析;文献[21]将语义分割进一步细化为全监督和弱监督学习方法进行阐述;文献[22]从语义分割研究领域入手进行梳理;以及文献[23]侧重于主流语义分割算法的总结。但是这些综述文献都未能根据不同应用领域有针对性的对精度需求和创新方向进行详细的解释，因此对全卷积神经网络图像语义分割方法进行综述必不可少。经过总结和整理了相关研究后得到。从语义分割常用神经网络引入。

　　按照图像语义分割模型的应用场景不同，分为经典语义分割方法、实时性语义分割方法和RGBD语义分割方法，对每类具有代表性的方法进行叙述总结，并对不同应用场景下的方法进行延展。第1节介绍语义分割常用神经网络，第2节对全卷积神经网络图像语义分割方法进行阐述，并对不同应用场景下每类具有代表性的算法展开叙述和延展，第3节对图像语义分割的相关实验进行分析和总结，介绍公共数据集和算法性能评价指标，第4节对图像语义分割未来的发展方向进行展望。

　　1语义分割常用神经网络

　　1.1AlexNet

　　2012年Krizhevsky等人提出的AlexNet[24]架构以绝对优势在ImageNet竞赛中以84.6%的准确率夺得冠军，掀起CNN在各个领域的研究热潮。AlexNet网络结构共8层，包括5个卷积层和3个全连接层。其网络采用Relu激活函数，局部响应归一化(LocalResponseNormalization,LRN)提高模型的泛化能力，应用重叠池化(Overlapping)和随机丢弃(Dropout)预防过拟合。

　　1.2VGGNet

　　2014年由牛津大学计算机视觉组合和GoogleDeepMind公司提出的VGGNet[25]，在ImageNet竞赛中以精确度92.7%获得亚军。它与AlexNet[24]网络相比，主要创新是叠加使用33滤波器将网络深度提升到1619个权重层，使其在感受野不变的条件下，减少参数计算，同时网络深度增加有效的改善网络对语义信息的提取。1.3GoogLeNet2014年Szegedy等人提出的GoogLeNet[26]以精确度93.3%取得ImageNet竞赛中的冠军。它采用比VGGNet[25]更深的网络结构，共22层，最亮眼的是提出Inception模块。

　　Inception将不同感受野的滤波器对输入图进行卷积和池化，通过11卷积降维后拼接输出。GoogLeNet将这些模块堆叠在一起形成一个抽象的网络结构。同时抛弃全连接层。Inception的引入不仅削减网络复杂性，而且还考虑到内存和计算成本。

　　1.4ResNet

　　2015年由微软研究院提出的ResNet[27]以精度96.4%成为ImageNet竞赛的冠军。其残差模块，能够成功的训练高达152层深的网络结构，残差结构通过引入跳跃连接来解决梯度回传消失的问题，真正解决网络深层架构的问题。

　　2全卷积神经网络图像语义分割方法

　　全卷积神经网络对图像语义分割具有里程碑的意义。按照应用场景不同，从高分割精度的经典语义分割方法，高效率的实时性语义分割方法和复杂场景的RGBD语义分割方法三个方面进行阐述。对这三类方法从方法特点、优缺点等几个方面进行了分析和比较。下面对其进行详细的介绍。

　　2.1经典语义分割方法

　　经典语义分割在应用中具有里程碑的意义。从经典网络模型FCN[18]、UNet[28]、SegNet[29]、DeepLab[3033]和方法延展展开详细的叙述。

　　2.1.1FCN

　　2015年Long等人提出全卷积网络(FullyConvolutionalNetwork,FCN)[18]，首次实现任意图片大小输入的像素级语义分割任务。FCN将CNN模型中的全连接层替换为全卷积层以实现像素级的密集预测，使用反卷积对特征图进行上采样，并提出跳层连接充分融合全局语义信息和局部位置信息，实现精确分割。

　　同时FCN微调常用经典网络的预训练权重来加快网络收敛速度。尽管FCN实现了分类网络到分割网络的转换，但是FCN也有许多不足：1)上采样过程粗糙，导致特征图语义信息丢失严重，严重影响分割精度;2)跳跃连接未能充分利用图片的上下文信息和空间位置信息，导致全局信息和局部信息的利用率低;3)网络整体规模庞大，参数多，导致计算时间过长。正是FCN的提出与不足，才为全卷积神经网络的发展奠定了里程碑的基础。

　　2.1.2U-Net

　　2015年Ronneberger等人提出的用于医学图像分割的UNet[28]，是一个对称编解码网络结构。UNet的独特之处是使用镜像折叠外推缺失的上下文信息，补充输入图片的语义信息，通过跳跃连接将编解码器中的特征图直接拼接，有效的融合了深层细节信息和浅层语义信息。

　　2.1.3SegNetSegNet[29]将对称编解码结构推向高潮。

　　SegNet没有跳层结构，使用批标准化(BatchNormal,BN)加快收敛抑制过拟合，其最大的创新是上采样使用最大池化(Maxpooling)方法[22]，即编码阶段的下采样过程中保留最大池化值和对应索引值，在解码阶段利用最大池化索引对输入的特征图进行上采样，最后经过卷积层得到稠密的特征图。SegNet使用极少数据量保存索引值却将低分辨率特征映射到输入分辨率中，实现对边界特征的精确定位。SegNet充分考虑内存占用问题，在空间复杂度上具有优势，然而除非存储量十分有限，SegNet就其网络本身，优势并不明显。

　　2.1.4DeepLab系列

　　2016年Chen等人提出的DeepLabv1[30]，抛弃VGG16[25]的全连接层，将最后两次池化步长改为1，深度卷积网络(DeepConvolutionalNeuralNetwor,DCNN)的部分卷积层替换为空洞卷积(atrousconvolution)，通过增大感受野来获得更多的语义信息。

　　同时提出全连接条件随机场(ConnditionalRandomField,CRF)的后处理方法对分割结果图进行细节增强，但是易丢失图片中详尽的细节信息。2017年，Chen等人对DeepLabv1进行扩展提出了DeepLabv2[31]，使用网络为ResNet[27]并提出带孔空间金字塔池化(AtrousSpatialPyramidPooling,ASPP)模块，实现多尺度目标的处理。多尺度特征提取的采样率(rate)分别为：6,12,18,24。

　　同时DeepLabv2仍然需要CRF做后处理。同年12月，Chen等人在DeepLabv1、v2的基础上提出DeepLabv3[32]。使用ResNet[27]，在级联ASPP模块中增加了全局平均池化和11的卷积层，有效处理多尺度分割目标的任务，同时引入批标准化BatchNormal(BN)。DeepLabv3在丢弃CRF后处理的情况下，取得比DeepLabv1和DeepLabv2更高的精确值。 2018年Chen等人提出DeepLabv3+[33]，结合编解码结构设计了一种新的编解码模型。

　　以DeepLabv3为编码器结构提取丰富的上下文信息，简单有效的解码器用于恢复语义对象边界信息，同时在ASPP模块和解码网络中添加深度可分离深度卷积(DepthwiseSeparableConvolution)，提高了网络的运行速率和鲁棒性，大幅度提升了分割准确度。DeepLab系列尽管成果斐然，但就其网络而言，存在细节分割丢失严重、计算量大、上下层语义信息关联性差等问题。因此基于DeepLab网络结构以及针对网络某个问题提出很多新的网络结构，如文献[37,38]等，有针对性的完善网络结构，解决多尺度目标的分割任务。

　　2.1.5方法延展

　　Lin等人提出了多路径细化网络(RefineNet)[39]。RefineNet用于解决空间信息丢失问题，首先输入来自ResNet[27]网络中4个不同尺度、不同分辨率的特征图，然后把4个特征图分别送入由残差卷积单元构成的4个精细化模块(RefineNetblock)中求和，充分利用下采样过程中的所有可用信息，有效的实现高分辨率的预测任务。

　　Zhao等人提出金字塔场景解析网络(PSPNet)[40]，提出一个金字塔池化模块。该模块级联多个具有不同步长的全局池化操作来聚合更多的上下文信息实现高质量的像素级场景解析，同时提出深度监督优化策略，降低模型优化的难度。 Peng等人提出GCN[41]。GCN提出对于输入图片进行分类和定位操作时有效的感受野至关重要，提出GCN模块采用大的卷积核替代通常小卷积核堆叠的方法来提高感受野，使用边界细化模块细化边界信息。

　　论文作者提出当卷积核大小为11时效果最好。Yu等人提出DFN[42]网络。DFN从宏观角度出发针对类内不一致和类间不一致的问题，提出平滑网络(SmoothNetwork，SN)和边界网络(BorderNetwork，BN)。前者通过引入注意力机制和全局平均池化选择更具区分性的类别特征信息，后者通过深度语义边界监督来区分不同类别的特征。同时还有改编于UNet[28]的网络Fusionnet[43]用于自动分割连接组学数据中的神经元结构，它在网络中引入基于求和的跳跃连接，用更深的网络结构来实现更精确的分割。DeconvNet[44]的解码器部分将反卷积和反池化组成上采样组件，逐像素分类完成分割任务。还有针对视频的语义分割的文献[4547]。

　　文献[45]提出将静态图像语义分割的神经网络模型转换为视频数据的神经网络技术，主要原则是使用相邻帧的光流来跨时间扭曲内部网络表示，提高性能的端到端训练。文献[46]提出基于时空变压器门控递归单元STGRU(SpatioTemporalTransformerGatedRecurrentUnit)的GRFP模型，结合多帧未标注信息来提高分割性能。以及文献[47]采用类似生成对抗网络(GenerativeAdversarialNetworks,GAN)[48]的网络结构。通过预测未来帧学习判别特征，与单帧的简单分割相比，语义分割效果显著。由此可知，经典模型发展相对饱和，横向领域研究将会为其精度提升注入新的血液。

　　2.2实时性语义分割方法

　　实时执行像素级语义分割的能力在延时满足的应用中至关重要，针对这一应用场景，实时性语义分割应运而生。通过具有代表性的实时性网络架构ENet[49]与LinkNet[50]、BiseNet[51]、DFANet[52]展开阐述，并对模型优化方向提出方法延展。

　　2.2.1ENet与LinkNet

　　2016年AdamPaszke等人提出ENet[49]，次年Chaurasia等人提出LinkNet[50]。其中ENet针对低延迟操作的任务提出适合的网络模型结构，采用较大的编码结构和较小的解码结构，大大削减参数数量。同时采用PReLUs激活函数确保分割精度。LinkNet则是直接将编码器和解码器对应部分连接起来提高准确率，在不增加额外操作同时保留编码层丢失的信息，减少计算量。然而编解码网络的简化，不可避免丢失空间分辨率，减弱分割精度。如何平衡语义分割精度和分割效率，成为实时性分割模型的重要突破口。

　　2.2.2BiSeNet

　　2018年Yu等人提出BiSeNet[51]，分为空间分支路径(SpatialPath,SP)和上下文分支路径(ContextPath,CP)。SP共三层，每层包括一个步长为2的33的卷积，BN层和Relu层，有效的保留原始图片的空间尺寸并编码丰富的空间信息。CP采用轻量级网络Xception和平均池化来兼顾感受野和实时性。同时模型加入注意力机制模块(ARM)来引导特征学习，最后使用特征融合模块(FFM)将全局特征和局部特征进行有效融合。BiSeNet证实了实时分割中双路径网络的有效性能，但是不可避免造成算法耗时增加。STDC[53]重新思考BiSeNet，进一步缩短了实时推理时间，削减网络冗余，也为网络瘦身提供新的研究思路。

　　2.2.3DFANet

　　2019年Li等人提出DFANet[52]，DFANet开起了在主流移动端处理器上做高清视频级应用的可能性。其中编码器是3个改进的轻量级Xception网络，由网络级特征聚合和阶段级特征聚合连接在一起。作者保留全连接层增加感受野，并和11卷积组成注意力模块。

　　解码器是将编码器3个阶段的特征图采用双线性差值的方式上采样后融合细化语义信息。DFANet改进轻量级网络的思想，刷新了实时语义分割的计算量的记录。但是优化计算成本、内存占用，会损失分割精度，因此如EsNet[54]、DFPNet[55]等网络的提出很好的平衡了实时性网络中速度和精度的追求。

　　2.2.4方法延展

　　LightWeightRefineNet[56]在RefineNet[39]基础上，将网络改编为更加紧凑的架构，使其适用于在高分辨率输入图片上实现更快速率的分割任务。类似于将网络模型轻量化的模型压缩方法有模型裁剪、模型量化、知识蒸馏[57]、神经结构搜索(NeuralArchitectureSearch，NAS)[58]等，其中模型裁剪按照裁剪规则和敏感度分析对参数进行重要性分析，剪掉不重要的网络连接。

　　模型量化是将浮点数映量化到最低位数，使得参数计算量和模型体积减少，从而加快模型的推理速度。知识蒸馏将复杂网络的知识迁移到小网络，通常的实现过程是就用复杂网络监督小网络的训练，从而提高小网络的精度。以及NAS是通过模型大小和推理速度力约束来设计更高效的网络结构。因此，有效的模型瘦身和轻量化网络结构会促进实时性语义分割性能，实现对高分辨率图像的精准快速分割。

　　2.3RGBD语义分割方法

　　随着室内复杂场景分割问题的显露，提出RGDB语义分割。主要思想是使用深度图(DeepImage)对RGB图进行语义信息的补充。其中深度图也叫距离影像，指将从图像采集器到场景中各点的距离(深度)作为像素值的图像。首先从RedNet[59]、RDFNet[60]来介绍RGBD语义分割。然后针对其算法融合阶段进行方法延展。

　　2.3.1RedNet

　　2018年，Jiang等人提出的RedNet[59]网络。RedNet使用残差模块作为基本块应用于编码解码结构中，深度图和彩色图使用相同下采样方式。网络先短跳进行深度图和彩色图融合，再将融合结果通过远跳和同尺寸的解码器模块融合，并提出一种金字塔监督的监督训练方法来提高复杂场景的分割精度。然而，彩色图和深度图本身差异明显，如何让深度图有效的给彩色图以语义补充，提高模型分割精度，是复杂场景下RGBD语义分割追求的目标。目前有文献[61,62]对深度图进行有效处理。

　　3图像语义分割实验分析与对比

　　3.1数据集

　　根据全卷积语义分割方法应用场景的不同，整理了语义分割的常用公共数据集，分为2D数据集和2.5D数据集。

　　3.1.12D数据集

　　PASCALVisualObjectClasses[72](简称PASCALVOC)：数据集由一个国际计算机挑战赛提供，从2005年一直发展到2012年，由于每年发布带标签的图像数据库并开展算法竞赛而产生一系列高质量的数据。目前数据集PASCALVOC2012最为常用。数据集包含20种类别(人、动物、交通工具、室内物品等)，图片大小不固定，背景复杂多变。PASCALContext[73]：数据集由PASCALVOC数据集扩展得到，总共有540个类，包含10103张语义标注的图像。该数据集类别繁多且许多类比较稀疏，因此在评估语义分割算法性能时，通常使用前59个类作为分割评判标准。

　　SemanticBoundariesDataset[74](简称SBD)：数据集由斯坦福大学建立，继承了PASCALVOC中的11355张语义标注图像，其中训练集8498张图像，验证集2857张图像，图片大多数为户外场景类型，实际应用中已逐渐替代PASCALVOC数据集。MicrosoftCommonObjectsinContext[75](简称COCO)：数据集由微软公司开源和推广，包含80个图像实例，82782张训练图片，40504张验证图片和81434张测试图片，其中测试图片分为四类用于不同的测试。数据集中图像类别丰富，大多数取自复杂的日常场景，图中的物体具有精确的位置标注。

　　Cityscapes[76]：数据集由奔驰公司于2015年推行发布，专注于对城市街景的语义理解。提供了50个不同城市街景记录的立体视频序列，包含20000张弱注释图片和5000张的高质量的强注释的图片，涵盖了各种时间及天气变化下的街道动态物体，同时提供了30个类别标注，像素为20481024的高分辨率图像，图像中街道背景信息复杂且待分割目标尺度较小。此数据集可用于实时语义分割研究。

　　CamVid[77]：数据集由剑桥大学的研究人员与2009年发布，CamVid由车载摄像头拍摄得到的5个视频序列组成，提供了不同时段701张分辨率为960720的图片和32个类别的像素级标签，包括汽车、行人、道路等。数据集中道路、天空、建筑物等尺度大，汽车、自行车、行人等尺度小，待分割物体尺度丰富。KITTI[78]：目前国际上最大的用于自动驾驶场景的算法评测数据集，可进行3D物体检测、3D跟踪、语义分割等多方面研究。数据集包含乡村、城市和高速公路采集的真实数据图像，原始数据集没有提供真实的语义标注，后来Alvarez等人[79,80]、Zhang等人[81]和Ros等人[82]为其中部分图添加了语义标注。

　　3.2实验结果分析与对比

　　不同应用场景下语义分割方法在不同数据集上的实验结果对比。选用分割领域标准数据集VOC2012、Cityscapes、CamVid、SUNRGBD和NYUDv2对经典语义分割方法，实时性语义分割方法和RGBD语义分割方法进行实验结果分析和对比。

　　针对高精度追求的应用场景经典语义分割方法，多用于室外场景数据集，在VOC2012数据集上DeepLabv3+的精度高达89.0%，在数据集Cityscapes是可达到82.1%的精度;针对延时满足要求高这一应用场景，实时性语义分割网络DFANet和LightweightRefineNet在数据集Cityscapes和VOC2012分别达到71.3%和81.1%的准确率，并且后者每秒传输帧数需要2055fps;而针对复杂场景下RGBD语义分割方法，在对室内复杂场景分割效果要优于经典语义分割和实时性语义分割的模型。

　　4结束语

　　随着全卷积神经网络在图像语义分割领域的应用，如何提高分割精度成为目前研究的难点和痛点。本文从不同应用场景，针对不同场景下的经典网络结构展开分析总结，发现该领域仍然存在许多未知的问题值得深入探究。(1)实时性语义分割现阶段语义分割在实时性网络分割任务上，依旧不够完善，如何平衡语义分割精度和效率依旧是一个必不可少的研究方向。

　　(2)RGBD语义分割RGBD网络模型目前的难点依旧是如何充分利用深度信息，有效的融合两者互补的模态，目前依旧是一个悬而未解的问题。(3)三维场景的语义分割技术深度图的引入让研究开始关注三维场景。尽管3维数据集难以获取，且标注工作很难，但是3维数据集比2维数据集包含更多的图像语义信息，使得3维场景语义分割有较高的研究价值和广阔的应用前景。

　　(4)应用于视频数据的语义分割可用的视频序列数据集较少，导致针对视频语义分割的研究进展缓慢。更多高质量的视频数据的获取和视频中时空序列特征的分析，将是语义分割领域的重要研究方向。(5)弱监督和无监督语义分割技术随着基于目标边框、基于图像类别便签、基于草图等弱监督方法的出现，降低了标注成本。但是分割效果并不理想，所以弱监督和无监督的语义分割需要进一步的研究。

　　参考文献:

　　[1]汪海洋,潘德炉,夏德深.二维Otsu自适应阈值选取算法的快速实现[J].自动化学报,2007,33(9):968971.WANGHY,PANDL,XIADS.AFastAlgorithmforTwodimensionalOtsuAdaptiveThresholdAlgorithm[J].JournalofImage,2007,33(9):968971.

　　[2]PUNT.Anewmethodforgraylevelpicturethresholdingusingtheentropyofthehistogram[J].SignalProcessing,1985,2(3):223237.

　　[3]OTSUN.AThresholdSelectionMethodfromGrayLevelHistograms[J].IEEETransactionsonSystemsMan&CCybernetics,2007,9(1):6266.

　　[4]YENJC,CHANGFJ,CHANGS.Anewcriterionforautomaticmultilevelthresholding[J].IEEEtransactionsonimageprocessing:apublicationoftheIEEESignalProcessingSociety,1995,4(3):370378.

　　[5]DERICHER.UsingCanny'scriteriatoderivearecursivelyimplementedoptimaledgedetector[J].InternationalJournalofComputerVision,1987,1(2):167187.

　　[6]ROSENFELDA.TheMaxRobertsOperatorisaHueckelTypeEdgeDetector[J].IEEETransactionsonPatternAnalysis&MachineIntelligence,1981,3(1):1013.

　　作者：张鑫，姚庆安，赵健，金镇君，冯云丛

转载请注明来源。原文地址：http://www.xuebaoqk.com/xblw/7209.html

《全卷积神经网络图像语义分割方法综述》

上一篇：具有多种振动方式的振动台设计
下一篇：埋地燃气管道泄漏声波检测实验平台及教学应用

全卷积神经网络图像语义分割方法综述

学报论文发表期刊

热点学报

学报问题

热点问题