一种历史信息特征敏感的行人迭代检测方法

发布时间：2022-02-16 10:40所属平台：学报论文发表咨询网浏览：次

　　摘要基于深度学习的目标检测算法通常需要使用非极大值抑制等后处理方法对预测框进行筛选，但是在行人拥挤的场景中这些后处理方法无法在检测精度和召回率之间作出合适的平衡导致了模型的性能受到限制。虽然迭代检测的方法采用两次检测的策略避免了非极大值抑制等方法

　　摘要基于深度学习的目标检测算法通常需要使用非极大值抑制等后处理方法对预测框进行筛选，但是在行人拥挤的场景中这些后处理方法无法在检测精度和召回率之间作出合适的平衡导致了模型的性能受到限制。虽然迭代检测的方法采用两次检测的策略避免了非极大值抑制等方法带来的问题，但是在前后两次检测中产生的重复检测同样会限制模型的检测精度和召回率。本文提出了一种历史信息特征敏感的行人迭代检测方法，首先引入了带权重的历史信息特征(WHIC)提高了特征的区分度，其次利用本文提出的历史信息特征提取模块(HIFEM)得到不同尺度的历史信息特征并融合进主网络中进行多尺度检测增强了模型对历史信息特征的敏感度，该方法能够有效地抑制重复检测框的产生。实验结果表明，本文所提出的方法在拥挤场景的行人检测数据集CrowdHuman和WiderPerson上取得了最优的检测精度和召回率。

　　关键词机器视觉;目标检测;特征融合;卷积神经网络;深度学习

历史信息特征

　　1引言

　　行人检测的应用场景中目标通常比较拥挤，行人之间的相互重叠和遮挡都会对目标检测算法产生巨大的挑战。如何在拥挤的场景下对行人进行精确地检测是一个学术界和工业界都十分关注的课题，但是目前通用的目标检测算法在行人拥挤场景下的检测精度和召回率都难以满足要求[1]。目前，基于深度学习的目标检测算法大致可以分为两个类别：两阶段的检测算法和单阶段的检测算法。两阶段的检测算法首先产生一组候选目标框，然后再对它们进行分类和定位。如Girshick等提出的CNN[2]采用选择性搜索算法对输入图片提取出2000个候选区域，再对候选区域进行裁剪缩放后输入CNN进行分类和定位。

　　He等提出了SPPNet[3]，使得网络能够输入任意尺度的候选区域而不需要对候选区域进行裁剪和缩放。Girshick等提出了FastRCNN[4]，提出了多任务损失函数，将分类损失和定位边界框回归损失统一训练学习。为了解决选择性搜索算法速度慢的问题，Ren等提出了FasterRCNN[5]，采用了RPN来取代选择性搜索算法，实现了端到端的训练，极大提高了检测速度。虽然两阶段的算法精度高，但是训练步骤繁琐、检测速度过慢。

　　为了实现目标检测算法的实时性，基于回归的单阶段目标检测算法舍弃了RPN网络来生成候选区域，而是直接在图像的多个位置回归出候选框和类别。单阶段的目标检测算法主要有YOLOv1～v4[69]和SSD[10]两个系列。单阶段的目标检测算法使用锚框机制提高了网络的定位能力，但是带来了与锚框相关的复杂计算和超参数设计。HeiLaw等提出了CornerNet[11]直接预测物体的左上角和右下角来得到检测框，将目标检测问题当作关键点检测问题来解决。Zhou等提出了ExtremeNet[12]，选取物体上下左右四个极值点和一个中心点预测分支。Zhi等提出了基于全卷积的单阶段目标检测器FCOS[13]，采用逐像素预测方式解决目标检测问题。

　　最近，Zhang等提出Anchorbased和Anchorfree方法之间的内在区别是对正负训练样本的定义不同所导致的[14]。并且提出了一种自适应的训练样本选择算法根据目标的统计特征自动选择正负训练样本。以上所述的基于深度学习的目标检测算法都需要采用非极大值抑制等后处理方法去除冗余的检测框，但是非极大值抑制等方法在多个同类别的目标出现重叠和遮挡的时候，无法判断出大量检测框是否属于需要进行抑制的冗余检测框还是对目标正确的检测结果[15]。

　　Ge等基于两阶段目标检测器设计了PSRCNN[16]，先使用一个RCNN对图像中未被遮挡的目标进行检测，将检测结果转换成目标形状的挡板，用它来过滤掉已经被检测出的目标后，再使用另外一个RCNN来检测那些被遮挡的目标。但是，PSRCNN只能应用于两阶段的目标检测算法，并不能移植到单阶段的目标检测算法上，并不具备通用性。

　　Danila等提出了IterDet[17]设计出了一种迭代的网络结构，通过引入历史信息特征和设计模型的训练方式使得模型学习利用第一次检测结果的信息对输入图片进行第二次检测，从而提高模型在拥挤场景下的精确度和召回率。虽然IterDet的迭代机制可以方便地移植到双阶段或者单阶段的算法上，但是模型依旧不能处理重复检测的问题，使得模型的检测精度和召回率受到了限制。

　　本文提出了一种历史信息特征敏感的迭代检测方法：首先引入带权重的历史信息特征(WHIC)对不同遮挡程度的像素位置赋予相应的权重提高特征的区分度，其次通过历史信息特征提取模块(HIFEM)得到了多尺度的历史信息特征并且融入主网络中进行检测增强了模型对历史信息特征的敏感度。本文提出的方法有效地抑制了迭代检测中重复检测框的产生，显著地提高了模型的检测精度与召回率。

　　2IterDet迭代检测

　　迭代检测的思想本质上是将一次困难的目标检测拆分成两次相对简单的检测，通过对前后两次检测的结果进行合并得到最优的结果集。如图所示，IterDet将第一次的检测结果转化成历史信息特征后融合进主网络中再进行第二次检测。

　　通过实验发现，IterDet的设计无法将第一次的检测结果和第二次的检测结果做到有效的隔离，在第二次检测中会产生许多在第一次检测中已经得到的重复检测框。重复检测框的产生说明了迭代检测机制的失效。其中紫色检测框为重复检测框，黄色检测框为新产生的检测框。从图可以看出，IterDet在第二次检测中产生了许多的重复检测框，被重复检测框遮挡的目标会被非极大值抑制等后处理方法直接过滤掉，最终模型的检测精度和召回率都会受到严重的限制。

　　3历史信息特征敏感的迭代机制

　　3.1带权重的历史信息特征

　　WHIC迭代机制的核心就是历史信息特征，模型在训练过程中需要利用历史信息特征使得模型获得对其敏感的权重，在检测过程中需要利用对历史信息特征敏感的模型进行第二次检测。因此，如何设计历史信息特征是迭代机制的关键问题。IterDet的历史信息特征设计非常的粗糙，它首先统计所有像素点上覆盖的检测框个数然后将其转换成灰度图上对应的灰度值最终作为模型的历史信息特征。这样的历史信息特征区分度不高，最终会导致模型对于历史信息特征不够敏感。

　　本文提出了带权重的历史信息特征WHIC提高了特征的区分度。首先基于检测框的个数将像素位置的遮挡程度划分为：轻度遮挡、中度遮挡、重度遮挡，再对不同的遮挡程度设置不同的权重系数，每一个像素位置上的值为覆盖的检测框个数与权重系数的乘积，通过引入权重系数使得不同遮挡程度的像素位置具有区分度更高的特征。其中权重系数的设定为：当像素点上覆盖的检测框数量在以内，此时该像素位置属于轻度遮挡，权重系数设置为;当像素点上覆盖的检测框数量超过了但是在10以内，此时该像素位置属于中度遮挡，被遮挡的目标缺乏足够的像素信息，权重系数设置为;当像素点上覆盖的检测框数量超过了10，此时该像素位置属于重度遮挡，将权重系数设置为12。

　　3.2历史信息特征提取模块

　　HIFEM卷积神经网络中浅层特征的像素信息比较丰富但是语义信息不足，深层特征的像素信息不足但是语义信息比较丰富[18]，并且浅层特征的像素信息会随着特征提取网络的卷积操作逐渐消失[1。历史信息特征是训练历史信息特征敏感模型的关键，如果网络中浅层的历史信息特征随着网络的加深而消失，那么迭代机制就会失效，模型也无法利用多尺度检测提高检测精度与召回率20。

　　虽然采用FPN[2或者PANet[2的特征融合手段可以将深层特征的语义信息与浅层特征的像素信息进行融合从而弥补特征不平衡的缺陷，但是这些特征融合的方法是按照一定的顺序对相邻层的特征进行融合，导致模型只关注顺序相邻的特征层之间的信息融合[2，浅层的历史信息特征依旧会随着网络的加深而丢失。

　　3.3模型训练

　　模型选取ResNet50作为主网络，并且在每一个特征层中融合HIFEM输出的尺度一致的历史信息特征，在训练过程中将主网络与HIFEM同时进行反向传播。模型的具体训练过程可以分为以下三步：第一步，将数据集中的真值框分为两部分old和new。

　　第二步，将old直接转化成历史信息图xy后，输入HIFEM，得到多个尺度的历史信息特征，然后再将多个尺度的历史信息特征融合进主网络中，其中特征融合的方式为对应像素直接相加。最后通过主网络进一步提取特征，通过检测头得到预测框。第三步，通过预测框与new之间的误差反向传播优化模型的损失函数，对主网络ResNet50与HIFEM同时进行训练。

　　4实验结果与分析

　　4.1实验环境与数据集

　　本文的相关实验基于Pytorch深度学习框架，操作系统为Ubuntu，GPU为GTX2080。为了实验结果的公平性，我们将模型的参数与IterDet模型的参数保持一致。

　　CrowdHuman数据集[2是一个复杂的行人图片数据集，它的训练集拥有15000张图片，验证集拥有4370张图片，测试集拥有5000张图片。其中，每一张图片平均拥有23个行人并且每个行人都有三个标注的真值框：全身框、可见身体框还有头部框，本文的实验选取全身框标注的真值框。数据集中的真值框不但重叠得非常严重，并且很多目标都处于图片的边缘位置。WiderPerson数据集[2包含的场景更加广泛与复杂。其中，训练集拥有8000张图片，验证集拥有1000张图片，测试集拥有4382张图片，其中测试集的标注非公开。本文将模型在测试集中产生的重复检测框的平均数量作为衡量重复检测的实验指标。本文选取单阶段算法RetinaNet与两阶段算法FasterRCNN作为Baseline，选择ResNet50作为特征提取网络。

　　4.2最优权重系数

　　本文基于IterDet针对不同的遮挡程度设置了五组权重系数，在两个不同的数据集上对单阶段算法与双阶段算法进行最优权重系数的实验。其中考虑灰度值的范围大小，每一组的轻度遮挡权重系数以作为步长，灰度值的范围为从到10;考虑不同遮挡程度的区分度，每一组的不同遮挡程度权重系数以该组轻度遮挡系数作为步长。

　　5结论

　　本文提出了一种历史信息特征敏感的行人迭代检测方法，优化了历史信息特征的设计，并提出了更加有效的网络结构对历史信息特征进行有效地提取与融合。

　　1)权重系数的引入提高了特征的区分度，丰富了历史信息特征的信息，对模型的性能有一定的提升。

　　2)历史信息特征提取模块在训练过程中有助于提高模型对历史信息特征的敏感度，在推断过程中能够有效利用多尺度的历史信息特征进行检测。通过实验证明，历史信息特征提取模块大幅度地提高了模型在CrowdHuman与WiderPerson数据集上的检测精度与召回率。

　　参考文献(References)

　　[1]邱博，刘翔，石蕴玉，尚岩峰.一种轻量化的多目标实时检测模型[J].北京航空航天大学学报，2020，v.46;No.331(09)：15764.

　　[2]GIRSHICKR,DONAHUEJ,DARRELLT,etal.RichFeatureHierarchiesforAccurateObjectDetectionandSemanticSegmentation[J].2013,

　　[3]HEK,ZHANGX,RENS,etal.SpatialPyramidPoolinginDeepConvolutionalNetworksforVisualRecognition[J].IEEETransactionsonPatternAnalysis&MachineIntelligence,2014,37(9):190416.

　　[4]GIRSHICKR.FastRCNN[J].ComputerScience,2015,

　　[5]RENS,HEK,GIRSHICKR,etal.FasterRCNN:TowardsRealTimeObjectDetectionwithRegionProposalNetworks[J].IEEETransactionsonPatternAnalysis&MachineIntelligence,2017,39(6):113749.

　　[6]REDMONJ,DIVVALAS,GIRSHICKR,etal.YouOnlyLookOnce:Unified,RealTimeObjectDetection;proceedingsoftheComputerVision&PatternRecognition,F,2016[C].

　　作者：戴佩哲，刘翔1,，张星，尚岩峰，赵静文，王诗雨

转载请注明来源。原文地址：http://www.xuebaoqk.com/xblw/7341.html

《一种历史信息特征敏感的行人迭代检测方法》

一种历史信息特征敏感的行人迭代检测方法

学报论文发表期刊

热点学报

学报问题

热点问题