摘要
针对资源受限的红外成像系统准确、实时检测目标的需求,提出了一种轻量型的红外图像目标检测算法GPNet。采用GhostNet优化特征提取网络,使用改进的PANet进行特征融合,利用深度可分离卷积替换特定位置的普通3×3卷积,可以更好地提取多尺度特征并减少参数量。公共数据集上的实验表明,本文算法与YOLOv4、YOLOv5-m相比,参数量分别降低了81%和42%;与YOLOX-m相比,平均精度均值提高了2.5%,参数量降低了51%;参数量为12.3 M,检测时间为14 ms,实现了检测准确性和参数量的平衡。
利用红外图像进行目标检测在很多领域具有不可替代的地位,如红外夜视、工业探伤、红外成像制导
红外图像目标检测算法可分为两类:传统算法和基于深度学习的算
KAIS
本文研究并提出了一种基于YOLOv4的轻量型红外图像目标检测算法——GPNet。主要贡献主要有3个方面:第一,以YOLOv4作为基本框架,使用GhostNet替换YOLOv4的主干网络,能够以很低的运算量生成冗余的特征图,提高算法的执行速度;第二,使用深度可分离卷积替换特征提取、特征融合和检测头模块特定位置的普通3×3卷积,可更好地提取深层和浅层的特征并减少参数量;第三,设计了一种改进型的PANet结构,可更好地融合特征,提高检测的准确度。
YOLOv4和GhostNet在可见光图像目标检测方面取得了良好的性能。与YOLOv3相比,YOLOv4采用CSP(Cross Stage Partial Networks
本文通过分析YOLOv4和GhostNet这两种网络的结构特点、优化方法等,提出了一种轻量型的红外目标检测算法GPNet,以快速准确地检测图像中的物体。GPNet的整体网络结构如

图1 GPNet整体网络结构图
Fig. 1 GPNet overall network structure
在
Ghost 模块(如

图2 Ghost模块结构图
Fig. 2 Ghost module
深度卷积神经网,其中
代表输入通道数,
和
代表输入数据的高和宽,一个任意的产生
个特征图的卷积层的操作可以被表述为
![]() | (1) |
其中代表卷积运算,
代表偏差项,
代表具有
个通道的输出特征图,
是这一层中的卷积核,
和
分别代表输出数据的高和宽,
代表卷积核
的内核大小。在此卷积过程中,由于卷积核数量
和通道数
通常很大(例如256和512),所需的FLOPs数量达
之多。在GhostNet中,作者指出普通卷积层的输出特征图通常包含很多冗余,并且其中一些彼此相似,无需使用如此大数量的FLOPs和参数来生成这些冗余特征图,可选择用少数原始特征图以更廉价的操作生成这些特征图。这些原始特征图相对较小,并由普通的卷积核生成。具体来说,m个原始特征图
是使用一次卷积生成的,具体计算式为
![]() | (2) |
其中,代表使用的卷积核,
,
代表偏差。为了进一步得到所需的n个特征图,文献[
中的每个原始特征图应用一系列廉价的线性运算,以生成s个Ghost特征图:
![]() | (3) |
其中是
中第i个原始特征图,
是第j个线性运算,用于生成第j个Ghost特征图
。最终,可以获得
个特征图
作为Ghost模块的输出数据。
通过对这些Ghost模块堆叠从而组成Ghost瓶颈模块,将其简称为GBX模块。如

图 3 Ghost瓶颈结构图
Fig. 3 Ghost bottleneck structure
通过对GBX模块的堆叠,构建如

图4 GhostNet结构图
Fig. 4 GhostNet structure
对于输入的红外图像,首先通过一次卷积得到的原始特征图可表示为
![]() | (4) |
其中,表示卷积操作。这类少量的原始特征图作为Ghost模块的输入可以通过简便的操作生成批量的特征图。每经过一个GB1模块后得到相应的一个特征图,例如特征图
可表示为
![]() | (5) |
![]() | (6) |
其中,表示经过一个Ghost模块的操作,
表示线性运算。每经过一个GB2模块后,也得到一个特征图,例如特征图
可表示为
![]() | (7) |
其中,表示深度可分离卷积操作。经过组合1后得到第一类特征融合模块所需的特征图
,再经过组合2后得到第二类所需的特征图
,最后经过组合3后得到第三类所需的特征图
。
研究表最大池化的方式,SPP模块使用
的最大池化的方式,即利用四种尺度对特征图进行划分,然后从每个区域中选取一个最大值作为输出,如
传入SPP前后,都需要经过一个3次卷积块。由于深度可分离卷积通过解耦空间和深度信息,可减少模型参数、降低计算

图5 SPP模块结构图
Fig. 5 SPP module structure diagram

图6 DSCM3模块结构图
Fig. 6 DSCM3 module structure
特征图在DSCM3模块中,首先经过标准卷积得到特征图
,然后利用替换的深度可分离卷积进行特征图的提取得到特征图
,深度可分离卷积由深度卷积和逐点卷积组成,深度卷积将单个滤波器应用到每一个输入通道,然后,逐点卷积用1×1卷积来组合不同深度卷积的输出,大大降低了参数量。深度可分离卷积的参数量为
![]() | (8) |
标准卷积的参数量为
![]() | (9) |
则参数量的比值为
![]() | (10) |
其中,表示卷积核的尺寸,N表示输入通道数,M表示输出通道数。由
,一般
。可以证明,本文的DSCM3模块可以显著减少模型的参数量,提升红外图像目标检测的检测速度。
在目标检测领域,为更好地提取融合特征,本文GPNet的特征融合模块中沿用了YOLOv4特征融合中的PANet结

图7 改进的PANet结构图
Fig. 7 Modified PANet structure

图8 DSCM5模块结构图
Fig. 8 DSCM5 module structure
与DSCM3模块作用相同,DSCM5模块进一步减少了网络参数、提高了检测效率。由,即,经过一个DSCM5模块可实现两处卷积参数量的下降,由
个参数量。可以证明,本文的DSCM5模块由于模型参数量大大降低,可以有效地提高红外图像目标检测的检测速度。
得益于深度可分离卷积在特征提取模块和多尺度特征融合模块取得的效果,将深度可分离卷积同样应用在了检测头模块,将常用的标准的3×3卷积替换为深度可分离卷积。相比采用标准的3×3卷积,深度可分离卷积具有降低参数并提高AP值的优势。
在多尺度特征融合模块中,如,然后与特征提取模块中
卷积操作后进行特征图拼接,最后经过DSCM5模块和两个卷积层进行特征提取得到特征图F3,其特征尺寸为输入图像的
,用于检测小目标。同时将特征提取模块中的特征图
经过卷积层和
进行特征图拼接,经过DSCM5模块进一步再与下采样得到的
进行特征图拼接,最后经过DSCM5模块和两个卷积层进行特征提取得到特征图F2,其特征尺寸为输入图像的
,用于检测中目标。同理,通过这种方式得到特征图F1,其特征尺寸为输入图像的
,用于检测大目标。特征图F1、F2和F3的具体过程如下所示:
![]() | (11) |
![]() | (12) |
![]() | (13) |
![]() | (14) |
![]() | (15) |
![]() | (16) |
![]() | (17) |
其中,表示卷积操作,
表示深度可分离卷积操作,
表示DSCM5模块操作,
表示特征图拼接操作,
表示上采样操作。通过多尺度特征融合的方式,将浅层网络中丰富的位置信息和纹理信息更好的与深层网络的语义特征信息相融合,增强模型在小目标下的多尺度特征学习能力,从而提升模型在小目标在复杂场景下的检测能力。
使用公开的和自制的红外数据集测试本文所提出的红外图像目标检测算法GPNet的性能。首先,从检测精度、速度和参数等方面与SOTA(state-of-the-art)目标检测算法进行对比。然后,进行消融实验,以测试不同方法带来的性能提升。
FLIR的红外数据集是一个经典的公开目标检测数据集,被很多红外图像物体检测算法所评
输入图像大小均为416×416,epoch为300,batch size为32,初始学习率为0.001,momentum为0.0005,weight decay为0.937,IoU阈值为0.5,优化器选用SGD,使用mosic数据增强算法扩充样本的多样性。所有实验都是基于Pytorch框架,并利用两块GeForce GTX 1080Ti GPU进行训练。其中GPNet模型训练选用GhostNet在ImageNet数据集上取得73.98%准确率时预训练模型。如

图9 训练损失曲线
Fig. 9 Training loss curve
Model | AP/(%) | mAP50/(%) | Recall/(%) | F1 | Params/M | FLOPs/G | Time/ms | |||
---|---|---|---|---|---|---|---|---|---|---|
person | car | person | car | person | car | |||||
FasterR-CNN | 39.09 | 61.67 | 50.38 | 47.06 | 69.84 | 0.43 | 0.47 | 136.7 | 252.7 | 75 |
SSD | 43.78 | 58.72 | 51.25 | 20.34 | 42.60 | 0.33 | 0.58 | 23.7 | 115.7 | 15 |
YOLOv3 | 73.73 | 85.93 | 79.83 | 59.36 | 77.89 | 0.70 | 0.81 | 61.5 | 65.5 | 19 |
YOLOv4 | 78.13 | 84.74 | 81.44 | 61.45 | 73.99 | 0.72 | 0.80 | 63.9 | 59.8 | 25 |
YOLOv5-m | 75.24 | 85.79 | 80.52 | 54.25 | 74.20 | 0.68 | 0.81 | 21.1 | 21.3 | 17 |
YOLOX-m | 72.02 | 80.46 | 76.24 | 52.43 | 68.16 | 0.66 | 0.77 | 25.3 | 31.1 | 16 |
YOLOv4+GhostNet | 69.41 | 86.14 | 77.77 | 49.17 | 76.00 | 0.63 | 0.81 | 39.3 | 25.6 | 17 |
GPNet(本文) | 72.65 | 84.83 | 78.74 | 47.32 | 71.95 | 0.62 | 0.79 | 12.3 | 7.2 | 14 |
从
与仅对YOLOv4替换主干特征提取网络的YOLOv4+GhostNet算法相比,后者相较于YOLOv4在参数量和FLOPs方面分别降低了约38%和57%,检测时间减少了8 ms。而本文GPNet算法,在此基础上参数量和FLOPs又分别降低约69%和72%,检测时间进一步减少了3 ms,同时在准确性方面AP(person)和mAP50数值分别提升了3.24%和0.97%,进一步带来了推理速度和准确度的提升。
为验证算法的鲁棒性,又在KAIST红外数据集的测试集上(set06-set11,10914张图片)进行了实验,结果如
Model | Size | AP/(%) | Recall/(%) | F1 |
---|---|---|---|---|
Faster R-CNN YOLOv4 |
416×416 416×416 |
39.52 50.45 |
55.49 49.49 |
0.40 0.54 |
YOLOv5-m | 416×416 | 50.69 | 44.42 | 0.54 |
YOLOv5-s | 416×416 | 50.18 | 44.65 | 0.53 |
YOLOX-m | 416×416 | 54.41 | 48.82 | 0.56 |
YOLOX-s | 416×416 | 53.49 | 47.27 | 0.55 |
GPNet (本文) | 416×416 | 55.04 | 47.36 | 0.57 |
为了进一步验证算法的鲁棒性,采用上文在FLIR数据集训练得到的模型在CVC-09红外数据集(含2884张夜晚图片和707张白天图片)以及自制的校园红外数据集(1103张图片)上进行测试。
CVC-09红外数据集的测试结果如
Model | Size | AP/(%) | mAP50/(%) | Recall/(%) | F1 | |||
---|---|---|---|---|---|---|---|---|
person | car | person | car | person | car | |||
Faster R-CNN | 416×416 | 42.39 | 67.92 | 55.15 | 52.40 | 75.42 | 0.40 | 0.54 |
YOLOv4 | 416×416 | 73.53 | 79.31 | 76.42 | 74.48 | 70.47 | 0.70 | 0.76 |
YOLOv5-m | 416×416 | 75.31 | 82.07 | 78.69 | 80.89 | 79.22 | 0.72 | 0.76 |
YOLOv5-s | 416×416 | 76.29 | 80.53 | 78.41 | 71.90 | 75.56 | 0.73 | 0.75 |
YOLOX-m | 416×416 | 71.86 | 79.16 | 75.51 | 74.41 | 75.08 | 0.71 | 0.75 |
YOLOX-s | 416×416 | 71.99 | 75.44 | 73.72 | 69.20 | 70.69 | 0.70 | 0.71 |
GPNet(本文) | 416×416 | 76.29 | 86.51 | 81.40 | 70.59 | 85.23 | 0.75 | 0.84 |
自制的校园红外数据集图片样例如

图 10 自制的校园红外数据集 (a)广场,(b)教学楼,(c)操场
Fig. 10 Self-made campus infrared dataset (a)square, (b)academic Building, (c)playground
Model | Size | AP/(%) | Recall/(%) | F1 |
---|---|---|---|---|
Faster R-CNN YOLOv4 |
416×416 416×416 |
45.28 81.23 |
61.98 81.11 |
0.41 0.76 |
YOLOv5-m | 416×416 | 79.63 | 78.25 | 0.76 |
YOLOv5-s | 416×416 | 75.08 | 62.04 | 0.73 |
YOLOX-m | 416×416 | 80.38 | 72.63 | 0.77 |
YOLOX-s | 416×416 | 79.00 | 69.77 | 0.76 |
GPNet (本文) | 416×416 | 81.46 | 78.35 | 0.80 |
综合分析上述4组表格中的数据,本文算法在4种数据集下的多个场景中,性能指标上均有一定优势,验证了本文算法在降低大量参数的同时仍然保持了良好的鲁棒性。

图 11 GPNet和SOTA算法在FLIR红外测试集上的检测结果图 (a) YOLOv4检测结果,(b)YOLOv5-m检测结果,(c)YOLOX-m检测结果,(d)GPNet(本文)检测结果
Fig. 11 Detection comparison of GPNet and SOTA algorithms on the FLIR IR test set(a)YOLOv4 detection results,(b)YOLOv5-m detection results,(c)YOLOX-m detection results,(d)GPNet(ours)detection results
为了更直观地看到不同改进方法对模型性能的影响,进行了消融实验。具体来说,首先将YOLOv4的主干网络直接替换为GhostNet,然后在此基础上逐次利用深度可分离卷积在不同位置进行改进,以观察实验结果并分析其影响。
为了保证消融实验的严谨性,在同一训练平台上设置300个epoch,训练完成后并在FLIR测试集上测试,实验数据如
Backbone | 3-C | 5-C | Dsample | Head | AP/(%) | mAP50/(%) | Recall/(%) | Params/M | Weight/MB |
---|---|---|---|---|---|---|---|---|---|
|
|
69.41 71.21 |
77.77 78.13 |
46.20 46.41 |
39.3 26.2 |
150.3 100.4 | |||
69.73 | 76.72 | 49.27 | 18.2 | 68.4 | |||||
72.65 | 78.74 | 47.32 | 12.7 | 47.4 | |||||
67.37 | 76.27 | 44.75 | 11.4 | 42.5 |
第一组实验数据为在仅替换主干网络时,模型的各项指标。为了验证改进型的PANet的有效性,通过对比前两组实验数据可以看出,在对网络特征融合模块的PANet中的普通3×3卷积替换为深度可分离卷积后,在参数量下降了13.1M的前提下,AP(person)和mAP分别提升了1.80%和0.36%。为了验证特征融合模块处三次卷积块的有效性,选用前三组实验数据进行对比,结果显示,该实验模型的Recall指标取得最优的49.27%,该指标表示整个数据集中被成功检测出的实例比例,同时参数量下降了8M。为了验证改进检测头的有效性,选用前四组实验数据集进行对比,结果显示,模型的指标再次得到了提升,AP(person)和mAP分别达到了最高的72.65%和78.74%,参数量被进一步降低5.5M。最后一组实验数据表明,虽然该实验模型可以将网络的参数量降到最低,相比与第四组实验数据可以再降低1.3M,但此时的模型各项指标也随之有大幅的下降。综合上述五组实验数据,本文设计的第四组网络模型在检测精度和计算成本上达到了更好的平衡。
本文基于YOLOv4和GhostNet提出了一种轻量型红外图像目标检测算法GPNet,设计了其网络结构。将YOLOv4的主干网络的CSP模块替换为了GhostNet,使参数量由原来的63.9 M降低为39.3 M;在网络的特征提取模块、多尺度特征融合模块和检测头模块用深度可分离卷积去替换特定位置的普通3×3卷积,将参数量进一步降低到了12.7 M;优化了PANet结构,更好地融合特征,提高了检测精度。在FLIR红外数据集上对person和car两个种类进行了测试,本文算法在car上的平均精度均值比YOLOv4提高了0.1%,参数量减少了81%;与YOLOX-m相比,平均精度均值提高了2.5%,参数量降低了51%;参数量为12.3M,检测时间为14ms。在KAIST红外数据集上对person种类进行了测试,GPNet相比于YOLOv4取得了最优结果,实现了检测准确性和参数量的平衡;在CVC-09和自制数据集上的测试表明,GPNet的AP和F1指标均有一定的优势,验证了本文提出的算法在红外图像目标检测方面的正确性、有效性和鲁棒性。
References
Han J, Yu Y, Liang K, et al. Infraredsmall-target detection under complex background based on subblock-level ratio-difference joint local contrast measure[J]. Optical Engineering, 2018, 57(10):103105. [百度学术]
LI Tong-shun, XI Yong, YIN Jian-Fei. Analysis of the development of key technologies for air-to-air infrared gui-dance[J]. Shanghai Aerospace(李同顺, 奚勇, 印剑飞。 对空红外制导关键技术发展分析。上海航天), 2021,38(3):163-170. [百度学术]
Fang L, Wang X, Wan Y. Adaptable active contour model with applicationsto infrared ship target segmentation[J].Journal of Electronic Imaging, 2016, 25(4):041010. [百度学术]
Zhang L, Wu B, Nevatia R. Pedestrian detection in infrared images based on local shape features[C]//2007 IEEE Conference on Computer Vision and Pattern Recognition, 2007:1-8. [百度学术]
Ge J, Luo Y, Tei G. Real-time pedestrian detection and tracking at nighttime for driver-assistance systems[J].IEEE Transactions on Intelligent Transportation Systems, 2009,10(2):283-298. [百度学术]
SU Xiao-Qian, SUN Shao-Yuan, GE Man, et al. Pedestrian detection and tracking of vehicle infrared images[J]. Laser & Infrared(苏晓倩,孙韶媛,戈曼,等。车载红外图像的行人检测与跟踪技术。激光与红外),2012, 42(8):949-953. [百度学术]
ZHU Han-Lu, ZHANG Xu-Zhong, CHEN Xin, et al. Dim small targets detection based on horizontal-vertical multi-scale grayscale difference weighted bilateral filtering[J]. J. Infrared Millim. Waves(朱含露,张旭中,陈忻,等。基于横纵多尺度灰度差异加权双边滤波的弱小目标检测。红外与毫米波学报),2020, 39(4):513-522. [百度学术]
CAI Ru-Hua, YANG Biao, WU Sun-Yong, et al. Weak Targets Box Particle Labeled Multi-bernoulli Multi-target Detection and Tracking Algorithm[J]. J. Infrared Millim. Waves(蔡如华,杨 标,吴孙勇,等。弱目标箱粒子标签多伯努利多目标检测与跟踪算法。红外与毫米波学报),2019,38(2):234-244. [百度学术]
Choi Y, Kim N, Hwang S, et al. KAIST multi-spectral day/night data set for autonomous and assisted driving[J]. IEEE Transactions on Intelligent Transportation Systems, 2018,19(3):934-948. [百度学术]
2018. FREE FLIR Thermal Dataset for Algorithm Training. [Online].Available: https://www.ir.in/oem/adas/adas-dataset-form. [百度学术]
Socarrás Y, Ramos S, Vázquez D, et al. Adapting pedestrian detection from synthetic to far infrared images[C]//ICCV Workshops. 2013, 3. [百度学术]
Ghose D, Desai S M, Bhattacharya S,et al. Pedestrian detection in thermal images using saliency maps[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops. 2019: 1-10. [百度学术]
Devaguptapu C, Akolekar N, Sharma M, et al. Borrow from anywhere: Pseudo multi-modal object detection inthermal imagery[C]//Proceedings of theIEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops, 2019: 1029-1038. [百度学术]
Dai X, Yuan X, Wei X. TIRNet: Object detection in thermal infrared images for autonomous driving[J]. Applied Intelligence, 2021, 51(3):1244-1261. [百度学术]
Krišto M, Ivasic-Kos M, Pobar M. Thermal object detection in difficult weather conditions using YOLO[J]. IEEE access, 2020, 8:125459-125476. [百度学术]
Song X, Gao S, Chen C. A multispectral feature fusion network for robust pedestrian detection[J]. Alexandria Engineering Journal, 2021, 60(1):73-85. [百度学术]
Du S, Zhang P, Zhang B, et al. Weakand occluded vehicle detection in complex infrared environment based on improved YOLOv4[J]. IEEE Access, 2021, 9:25671-25680. [百度学术]
Wu Z, Wang X, Chen C. Research on light weight infrared pedestrian detection model algorithm for embedded Platform[J]. Security and Communication Networks, 2021, 2021:1549772. [百度学术]
Li S, Li Y, Li Y, et al. YOLO-FIRI: Improved YOLOv5 for Infrared ImageObject Detection [J]. IEEE Access, 2021, 9:141861-141875 [百度学术]
Bochkovskiy A, Wang C Y, Liao H Y M. Yolov4: Optimal speed and accuracy of object detection[J].arXiv preprint arXiv:2004.10934, 2020. [百度学术]
Yang J, Fu X, Hu Y, et al. PanNet: A deep network architecture for pan-sharpening[C] //Proceedings of the IEEE international conference on computer vision, 2017:5449-5457. [百度学术]
Han K, Wang Y, Tian Q, et al. Ghostnet: More features from cheap operations[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2020:1580-1589. [百度学术]
He K, Zhang X, Ren S, et al. Spatialpyramid pooling in deep convolutionalnetworks for visual recognition[J]. IEEE transactions on pattern analysis andmachine intelligence, 2015, 37(9):1904-1916. [百度学术]
Krizhevsky A, Sutskever I, Hinton G E. Imagenet classification with deep convolutional neural networks[C]. Advances in neural information processing systems, 2012:1097-1105. [百度学术]
Simonyan K, Zisserman A. Very deepconvolutional networks for large-scale image recognition[J]. arXiv preprint arXiv:1409.1556, 2014. [百度学术]
He K, Zhang X, Ren S, et al. Deep residual learning for image recognition[C]//Proceedings of the IEEE conference on computer vision and pattern recognition, 2016:770-778. [百度学术]
Howard A G, Zhu M, Chen B, et al.Mobilenets: Efficient convolutional neural networks for mobile vision applications[J]. arXiv preprint arXiv:1704.04861, 2017. [百度学术]
Zhang X, Zhou X, Lin M, et al. Shufflenet: An extremely efficient convolutional neural network for mobile devices[C]//Proceedings of the IEEE conference on computer vision and pattern recognition, 2018:6848-6856. [百度学术]
Sandler M, Howard A, Zhu M, et al.Mobilenetv2: Inverted residuals and linear bottlenecks[C]//Proceedings of theIEEE conference on computer vision and pattern recognition,2018:4510-4520. [百度学术]
Ioffe S, Szegedy C. Batch normalization: Accelerating deep network trainingby reducing internal covariate shift[C]//International conference on machine learning, PMLR, 2015:448-456. [百度学术]
Bochkovskiy A, Wang C Y, Liao H Y M. Yolov4: Optimal speed and accuracy of object detection[J]. arXiv preprint arXiv:2004.10934, 2020. [百度学术]
Huang Z, Wang J, Fu X, et al. DC-SPP-YOLO: Dense connection and spatial pyramid pooling based YOLO for object detection[J]. Information Sciences, 2020, 522:241-258. [百度学术]