摘要
无人机因其小巧、轻便、灵活的特点,在农业、物流、救援、赈灾等方面有着广泛的应用。然而如果使用不当或管理不善,不仅会造成个人隐私泄露、财产损失,还可能对公共安全甚至军事安全构成威胁。因此,实时准确地对空域内的无人机进行检测与预警具有重要作用。对此,提出了一种用于红外无人机检测的多通道交互注意力和边缘轮廓增强的方法(MCIAECE)。首先,通过构建多通道交互注意力机制模块和边缘轮廓增强模块组成的双通道对红外图像的浅层和深层特征进行提取,经过注意力机制可以增强目标特征而边缘轮廓增强则可以获取更多细节信息。然后使用多级特征融合模块将所提取的各层特征进行融合增强,从而获得检测结果。实验结果表明,在三个数据集上用多通道交互注意力和边缘轮廓增强的方法都能够达到较好的效果。其中在NUDT-SIRST红外数据集上效果最佳,检测概率和交并比分别为98.83%和85.11%,与基线网络相比提高了1.95%和6.88%,与其他方法相比,在目标的边缘轮廓还原方面效果显著。
随着科技的进步,无人机为人们的日常生活带来了极大的便利。小型无人机具有体积小、便于携带、效率高等特点,在民用和军用领域都变得越来越普
因此,针对红外目标检测也提出了许多方法,如林再平
U-Net因其结构简单,易于训练等优点成为人们进行语义分割任务广泛使用的算法之一。它主要由编码器和解码器组成且为对称分布。同时引入复制和裁剪跳跃连接来进行特征传递与融合。
U-Net详细网络结构图如

图1 UNet网络结构
Fig.1 The structure of UNet
U-Net最开始用于语义分割任务,但由于其简单高效的U形结构,越来越多的人在目标检测当中使用它,同时也启发了后面很多算法。如果仅用U-Net网络对红外无人机数据集进行检测,存在以下几个问题:
(1)网络结构简单,因此对复杂图像检测效果不够好;
(2)图像越大需要的池化层越多,而特征在多层池化后容易产生特征不明显,细节丢失等问题,并且需要较大的内存和计算资源。
(3)在进行图像分割时,可能会出现一些边界模糊或者分割错误的情况。
为了让UNet网络适用于红外图像中无人机的目标检测,在原网络中增加多通道注意力和边缘轮廓增强来对图像进行特征提取。首先,利用多通道交互注意力模块来获得不同深度特征图,使每层特征图之间具有上下文信息。然后利用边缘轮廓增强模块提取每层特征的细节信息,从而达到增强目标边缘轮廓的目的,最后将经过多通道交互注意力之后的特征图和经过边缘轮廓增强模块的特征图一同输入到多级特征融合模块中,得到融合增强后的特征图。网络结构如

图2 MCIAECE网络结构图
Fig. 2 The structure of the MCIAECE network
仅使用卷积对图像进行局部特征提取,容易丢失目标细节信息。在深度学习中,特征图的关联性对于模型的性能至关重要,尤其是在复杂的背景下进行红外图像目标检测时。特征图的目标与背景关联性不足会导致模型在特征提取过程中,不能有效地捕捉到目标与其背景之间的空间关系和上下文信息,导致模型难以区分目标和背景,从而影响检测的准确性。因此,为了让网络能够自动学习特征图中目标像素的重要性和与背景的相关性,引入了一种多通道注意力机制,如
, | (1) |
, | (2) |
, | (3) |
, | (4) |
, | (5) |
其中,max和avg表示最大池化层和平均池化层,sigmd和soft分别表示Sigmoid和Softmax函数,GN表示组归一化操作。多通道交互注意力模块通过捕获像素级关系,重点突出所有像素的全局上下文信息,从而得到整个精确的空间位置信息。

图3 MCIA模块结构图
Fig.3 The structure of the MCIA module
由于U-Net左右两边对应的卷积层输出的特征图大小并不一致,需要将左侧输出的特征图裁剪为与右侧特征图相同大小后再进行拼接。这在一定程度上会使得特征图细节丢失,或重要像素被裁剪造成缺失,使得分割目标边缘轮廓模糊。为了获得边缘轮廓清晰的特征图,本文提出边缘细节增强模块代替UNet中的复制裁剪跳跃连接。其详细结构如
, | (6) |
其中,concat表示通道维度的特征拼接,pw表示1×1逐点卷积,Di表示卷积速率为i(i=1, 2, 3, 4)的空洞卷积。边缘特征增强模块通过将通道分割后交错排列来增强多尺度特征的多样性,同时使用逐点卷积进行组间和跨组信息融合,实现轻量高效的效果。

图4 ECE模块结构图
Fig.4 The structure of the ECE module
卷积神经网络的浅层图像具有更高的分辨率和更多的纹理细节;深层图像则分辨率低,但蕴含更加丰富的语义信息。然而,深层特征和浅层特征之间的相互关联性并没有充分地体现。因此,如
, | (7) |
其中MCIA表示多通道交互注意力模块,down表示下采样操作,up表示上采样操作,concat表示特征拼接。通过上采样操作和下采样操作得到与当前层相同大小的特征图,从而进行特征拼接得到增强表示后的特征图。

图5 多级特征融合模块结构图
Fig.5 The structure of the MLFF module
虽然本文方法主要针对红外无人机目标检测,但在多种目标场景的数据集上进行训练验证能够证明模型的泛化性能。因此选择在NUDT-SIRST 数据
实验是在NVIDIA GTX 1660 GPU上使用PyTorch完成的。为验证MCIAECE、在红外图像中对无人机检测的有效性,在相同运行环境及红外数据集下,将MCIAECE模型与其他多个红外检测方法如ALC-Ne
本文采用了IoU、Pd 以及 Fa作为评价指标,这些指标能够全面地反映模型的性能,包括模型对目标的检测能力、准确性以及在不同情况下的鲁棒性。以下是这些指标的详细解释:
1) 检测概率 (Pd):表示正确预测的目标数量和总目标数的比率。反映了模型的检测能力,即模型是否能够准确地识别出目标。Pd值越高,说明模型的检测能力越强。Pd定义如下:
, | (8) |
2) 虚警率 (Fa):表示错误检测的目标像素数和总目标像素数之间的比率。反映了模型在避免误检方面的表现。Fa值越低,说明模型的鲁棒性越好,虚警越少。Fa 定义如下:
, | (9) |
3) 交并比 (IoU):评估的是算法的形状描述能力,表示为检测目标与真值之间的交集和并集的比值,IoU值越高,表示预测结果与真实情况越接近,通常IoU值达到0.5以上被认为是有效的检测。IoU 定义如下:
(10) |
其中和分别表示检测目标与真值的交集和并集。
为了验证本文所提出 MCIAECE 红外无人机检测算法的有效性,与现有的一些经典算法进行比较,结果如
Model | NUDT(Tr=50%) | NUAA(Tr=50%) | IRSTD-1k (Tr=50%) |
---|---|---|---|
Pd/ Fa/ IoU | Pd/ Fa/ IoU | Pd/ Fa/ IoU | |
Top-Hat [ | 78.41/166.7/20.72 | 79.84/1012/7.143 | 75.53/1346/8.74 |
IPI [ | 74.49/41.23/17.76 | 85.55/11.47/25.67 | 80.75/16.68/24.98 |
RIPT [ | 91.85/344.3/29.44 | 79.08/22.61/11.05 | 77.47/28.41/14.33 |
MPCM [ | 84.32/356.8/27.28 | 83.27/17.74/12.35 | 69.73/29.47/11.68 |
PSTNN [ | 66.13/44.17/22.40 | 77.95/29.11/14.85 | 22.40/74.15/54.37 |
ACM [ | 95.68/9.34/68.28 | 92.93/3.45/72.46 | 90.35/12.42/60.47 |
MTU-Net [ | 97.35/3.89/83.83 | 98.55/1.30/73.12 | 91.52/1.71/63.12 |
RDIAN [ | 97.98/8.49/78.23 | 98.23/1.45/69.71 | 89.06/1.34/62.21 |
ALC-Net [ | 96.51/9.26/81.43 | 92.18/37.23/67.84 | 84.36/62.12/60.25 |
MCIAECE-Net | 98.83/2.09/85.11 | 98.09/1.21/69.89 | 91.64/1.08/61.16 |
为了进一步直观的看到方法的对比效果,如

图6 不同的检测方法获得的定性结果。为了更好地可视化,目标区域在左下角被放大。正确检测到的目标、虚警区域分别用红色、黄色圆圈显示。
Fig.6 Qualitative results of different detection methods. For better visualisation, the target area is enlarged in the lower left corner. Correctly detected targets, false alarm regions are shown with red and yellow circles, respectively.
在深度学习模型中,除了模型的精度之外,模型的参数量、FLOPs(浮点运算次数)和FPS也是衡量模型性能的重要指标,决定了模型在实际应用中的可行性和效率。模型参数量反映了模型的复杂度,其的大小直接影响显存的使用量,GFLOPs(每秒十亿次浮点运算数)则反映了模型对处理器运算能力的需求,FPS指的是模型处理视频流或实时图像数据时,每秒能够处理的帧数。一般来说,模型参数量较少可能导致模型的表示能力受限,从而影响模型的性能,但同时可能带来较低的GFLOPs和较高的FPS,使得模型在资源受限的设备上更易于部署。相反,参数量较多的模型可能具有更强的表示能力和更高的GFLOPs,但可能会牺牲一定的计算效率,导致FPS下降。为了进行公平比较,本文在 GPU 上测试了四种深度学习方法在相同条件下(如 256×256 大小的图像)的参数、 GFLOPs和FPS。结果如
Baseline | MCIA | ECE | MLFF | Pd | Fa | IoU |
---|---|---|---|---|---|---|
√ | × | × | × | 96.88 | 4.49 | 78.23 |
√ | √ | × | × | 96.93 | 3.3 | 81.77 |
√ | × | √ | × | 97.56 | 4.14 | 80.38 |
√ | × | × | √ | 98.20 | 2.88 | 80.04 |
√ | × | √ | √ | 98.51 | 2.29 | 80.59 |
√ | √ | × | √ | 97.56 | 2.65 | 83.27 |
√ | √ | √ | × | 97.09 | 4.31 | 80.83 |
√ | √ | √ | √ | 98.83 | 2.09 | 85.11 |
Method | Parameters(MB) | GFLOPs | FPS |
---|---|---|---|
ACM | 1.52 | 0.55 | 36.14 |
ALC-Net | 0.52 | 1.48 | 29.49 |
MTU-Net | 12.75 | 6.22 | 110.01 |
RDIAN | 0.22 | 3.72 | 100 |
MCIAECE | 3.88 | 3.68 | 47.96 |
通过消融实验可以分析并得到网络中三个主要的模块对整体性能的影响。
(1)多通道交互注意力。本文通过将常用的Resnet残差块和其他注意力机制模块对多通道交互注意力进行替换从而实现对该部分有效性的验证,实验结果如
Method | Pd | Fa | IoU |
---|---|---|---|
w/o MCIA | 98.51 | 2.29 | 80.59 |
CBAM | 98.64 | 3.53 | 82.45 |
SE | 98.23 | 4.66 | 81.14 |
DCFE-Net | 98.83 | 2.09 | 85.11 |
(2)边缘轮廓增强。本文将边缘轮廓增强模块替换为跳跃连接来验证该模块对目标边缘轮廓增强的有效性。从
(3)多级特征融合。与原网络中仅对前一层和当前层特征进行融合不同,本文采用三级特征融合模块。为了验证该模块的有效性,本文通过采用原Unet网络的特征融合方法替换多级融合模块。从
w/o ECE | Xi-1 | Xi | Yi+1 | Pd | Fa | IoU |
---|---|---|---|---|---|---|
√ | √ | × | √ | 98.51 | 2.31 | 79.08 |
√ | × | √ | √ | 97.09 | 2.63 | 80.83 |
√ | √ | √ | √ | 98.83 | 2.09 | 85.11 |
(4)特征提取可视化。为了更全面地验证设计的模块的有效性,需要进行更深入的分析。为此,在原有消融实验的基础上,引入了Grad CAM工具来可视化模型的注意力分布。如

图7 MCIA、ECE、MLFF三种模块获得的定性结果。为了更好地可视化,目标区域在右下角被放大。
Fig. 7 Qualitative results obtained by the three modules MCIA, ECE and MLFF. For better visualization, the target area is enlarged in the lower right corner.
本文基于U型网络结构提出了一种用于红外无人机检测的网络。该网络采用多通道注意力增强目标特征,并设计边缘轮廓增强模块来提取多层的细节信息,然后利用多级特征融合模块将来自不同层的不同大小的特征图进行融合,在丰富特征信息的同时也能够起到抑制背景的作用,最终得到检测精度高的结果。与不同方法对比表明,该网络在三个数据集中的多数评价指标上都达到最优,且能够在还原目标轮廓时得到更好的效果。未来工作中,需要增加红外无人机图片数量和类型,以提高模型在复杂环境中的适用性。还需要提出更加轻量化的网络模型,不仅能够保证精度,还能提高模型的检测速度。
References
MA Qi, SUN Xiao Jun, ZHANG Yang, et al. Detection and recognition method of low-altitude UAV based on infrared images[J]. Journal of Projectiles,Rockets,Missiles and Guidance, 2020, 40(3): 150-154. [百度学术]
马旗, 孙晓军, 张杨, 等. 基于红外图像的低空无人机检测识别方法[J]. 弹箭与制导学报, 2020, 40(3): 150-154. 10.15892/j.cnki.djzdxb.2020.03.034 [百度学术]
CAO Y, WANG Y, SONG H, et al. The unidirectional auxiliary surface sliding mode control for compound high-speed helicopter[C]. 2018 IEEE CSAA Guidance, Navigation and Control Conference (CGNCC), IEEE, 2018: 1–6. [百度学术]
YE Zhen Hua, LI Hui Hao, WANG Jin Dong, et al. Recent hotspots and innovative trends of infrared photon detectors[J]. Journal of Infrared and Millimeter Waves, 2022, 41(1): 001. [百度学术]
叶振华, 李辉豪, 王进东,等. 红外光电探测器的前沿热点与变革趋势[J]. 红外与毫米波学报, 2022, 41(1): 001. 10.11972/j.issn.1001-9014.2022.01.001 [百度学术]
GIRSHICK R, Fast R-CNN[C]. 2015 IEEE International Conference on Computer Vision (ICCV), IEEE, 2015: 1440-1448. [百度学术]
REDMON J, DIVVALA S, GIRSHICK R, et al. You only look once: unified, real-time object detection[C], 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), IEEE, 2016: 779-788. [百度学术]
LIU W, ANGUELOV D, ERHAN D, et al. SSD: Single shot multibox detector[C], 14th European Conference on Computer Vision (ECCV), Springer, 2016: 21–37. [百度学术]
TIAN Z, HUNG J, YANG Y, et al. The drone detection based on improved YOLOv5[C], Proceedings of the 2022 5th Artificial Intelligence and Cloud Computing Conference. ACM, 2022: 83–89. [百度学术]
LIANG Xiao, LI Jun, An infrared UAV target detection method based on improved YOLOv7 [J]. Electronics Optics & Control, 2023, 30(12): 38-43. [百度学术]
梁晓,李俊, 基于改进YOLOv7的红外无人机目标检测方法[J]. 电光与控制, 2023, 30(12): 38-43. [百度学术]
ZHANG Ling Ling, WANG Peng, LI Xiao Yan, et al. Low-altitude UAV detection method based on optimized SSD[J]. Computer Engineering and Applications, 2022, 58(16): 204-212. [百度学术]
张灵灵, 王鹏, 李晓艳, 等. 基于优化SSD的低空无人机检测方法[J]. 计算机工程与应用, 2022, 58(16): 204-212. [百度学术]
LI B Y, YING X Y, LI R J, et al. The First Competition on Resource-Limited Infrared Small Target Detection Challenge: Methods and Results. https://arxiv.org/abs/2408.09615v1 [百度学术]
LIN Zai Ping, LI Bo Yang, LI Miao, et al. Light-weight infrared small target detection combining cross-scale feature fusion with bottleneck attention module [J]. Journal of Infrared and Millimeter Waves, 2022, 41(6): 1102–1112. [百度学术]
林再平, 李博扬, 李淼, 等. 结合跨尺度特征融合与瓶颈注意力模块的轻量型红外小目标检测网络 [J]. 红外与毫米波学报, 2022, 41(6): 1102–1112. [百度学术]
YIAO Ying Le, ZHAO Juan, Small object tracking algorithm for infrared oversampled scanning images based on deep learning [J]. Foreign Electronic Measurement Technology, 2023, 42(1): 35-40. [百度学术]
姚迎乐, 赵娟, 基于深度学习的红外过采样扫描图像小目标跟踪算法[J]. 国外电子测量技术, 2023, 42(1): 35-40. [百度学术]
CHEN Hai Yun, YU Hong Hu, WANG Hai Chuan, et al. Object detection algorithom of thermal images based improved YOLOX[J]. Electronic Measurement Technology, 2022, 45(23): 72–81. [百度学术]
谌海云, 余鸿皓, 王海川, 等. 基于改进YOLOX的红外目标检测算法[J]. 电子测量技术, 2022, 45(23): 72–81. [百度学术]
CHEN Guang Qiu, WEN Qi Zhang, YIN Wen Qin, et al. Attentional residual dense connection fusion network for infrared and visible image fusion[J]. Journal of Electronic Measurement and Instrumentation, 2023, 37(8): 182–193. [百度学术]
陈广秋, 温奇璋, 尹文卿, 等. 用于红外与可见光图像融合的注意力残差密集融合网络[J]. 电子测量与仪器学报, 2023, 37(8): 182–193. [百度学术]
LIU T, YANG J G, LI B Y, et al. Infrared Small Target Detection via Nonconvex Tensor Tucker Decomposition with Factor Prior[J]. IEEE Transactions on Geoscience and Remote Sensing, 2023, 61:1-17. [百度学术]
LI B Y, WANG Y Q, WANG L G, et al. Monte Carlo Linear Clustering with Single-Point Supervision is Enough for Infrared Small Target Detection[C]. IEEE/CVF International Conference on Computer Vision (ICCV), 2023:1009-1019. [百度学术]
LI B Y, WANG L G, WANG Y Qet al. Mixed-Precision Network Quantization for Infrared Small Target Segmentation[J]. IEEE Transactions on Geoscience and Remote Sensing, 2024, 62: 1-12. [百度学术]
RONNEBERGER O, FISCHER P, BROX T. U-Net: convolutional networks for biomedical image segmentation[C]. Medical Image Computing and Computer-Assisted Intervention – MICCAI 2015, Springer, 2015:234-241. [百度学术]
DAI Y, WU Y, ZHOU F, et al. Attentional local contrast networks for infrared small target detection[J]. IEEE Transactions on Geoscience and Remote Sensing, 2021, 59(11):9813–9824. [百度学术]
SUN H, BAI J, YANG F, et al. Receptive-field and direction induced attention network for infrared dim small target detection with a large-scale dataset IRDST[J]. IEEE Transactions on Geoscience and Remote Sensing, 2023, 61: 1-13. [百度学术]
DAI Y, WU Y, ZHOU F, et al. Asymmetric contextual modulation for infrared small target detection[C]. 2021 IEEE Winter Conference on Applications of Computer Vision (WACV), IEEE, 2021, 945-958. [百度学术]
WU T, LI B, LUO Y, et al. MTU-Net: multi-level TransUNet for space-based infrared tiny ship detection[J]. IEEE Transactions on Geoscience and Remote Sensing, 2023, 61: 1-15. [百度学术]
WEI Y, YOU X, LI H, Multiscale patch-based contrast measure for small infrared target detection[J]. Pattern Recognition, 2016, 58: 216–226. [百度学术]
DAI Y, WU Y, Reweighted infrared patch-tensor model with both nonlocal and local priors for single-frame small target detection[J]. IEEE Journal of Selected. Topics Applied Earth Observations Remote Sensing, 2017, 10(8): 3752–3767. [百度学术]
GAO C, MENG D, YANG Y, et al, Infrared patch-image model for small target detection in a single image[J]. IEEE Transactions on Image Process, 2013, 22(12): 4996–5009. [百度学术]
ZHANG L, PENG Z, Infrared small target detection based on partial sum of the tensor nuclear norm[J]. Remote Sensing, 2019, 11(4): 382. [百度学术]
ZHU H, LIU S, DENG L, et al. Infrared small target detection via low-rank tensor completion with Top-Hat regularization[J]. IEEE Transactions on Geoscience and Remote Sensing, 2020, 58(2): 1004–1016. [百度学术]