摘要
为避免现有多帧红外弱小目标检测算法在显式对齐多帧特征时产生的估计误差累积,并缓解网络降采样导致的目标特征丢失,提出了一种渐进时空特征融合网络,采用渐进时序特征累积模块隐式地聚合多帧信息,并利用多尺度空间特征融合模块增强浅层细节特征与深层语义特征之间的交互。针对多帧红外弱小目标数据集稀缺的现状,构建了一个高度真实的半仿真数据集。与主流算法相比,提出的算法在所提出数据集和公开数据集上的检测概率分别提升了4.69%与4.22%。
由于红外传感器具有可全天候工作、抗电磁干扰性能强以及弹载方便的特点,红外弱小目标检测技术作为红外探测系统的关键技术,被广泛应用于早期预警系统、精确制导等领
为了检测红外弱小目标,研究人员提出了许多传统的检测方法,这些方法主要通过图像处理技术或手工设计的特征抑制图像中背景及噪声,实现目标检测。传统的检测方法包括基于滤波的方法,如最大中值滤波(Max-median filter
与传统方法相比,基于深度学习的方法由于其强大的建模能力,可以从覆盖复杂场景的大量训练数据中自动提取特征,算法的检测性能得到了显著提升,近年来吸引了越来越多的研究兴
然而,红外弱小目标往往淹没在大量的杂波和复杂的背景中,一旦目标在单帧图像中视觉特征不明显,基于单帧的检测方法性能会急剧下降。基于多帧的检测算法能同时利用目标的视觉信息和运动信息,具有更好的检测性能。Liu等
上述的多帧方法中,虽然传统方法获得了更精准的背景估计,抑制了大部分的杂波,但也会在一定程度上增强如建筑物角点或非目标运动对象等干扰信号,造成较高的虚警率。基于深度学习的方法通常使用光流法、仿射变换等方法进行帧间配准,显式地对齐不同帧中的目标特征,但在进行多帧对齐时会产生误差累积,难以应对目标复杂的运动情况;其次,由于网络模型中存在大量降采样操作,红外弱小目标的视觉特征和位置信息会不可避免地逐渐丢失,深层网络特征难以捕捉到目标的信息;最后,目前公开的多帧红外弱小目标数据集较为稀缺,无法满足多帧深度学习算法对于数据集的需求。Hui等
为了解决上述问题,本文提出了一种新的深度学习框架,称为渐进时空特征融合网络(progressive spatio-temporal feature fusion network, PSTFNet),该网络利用连续帧图像隐式地增强检测帧中的目标特征,并融合不同层次的特征,兼顾了细节信息丰富的浅层特征和语义信息丰富的深层特征,增强了目标在深层网络中的特征表示。一方面,本文设计了一个渐进时序特征累积模块(progressive temporal accumulation module, PTAM),该模块使用感受野渐进增大的2D卷积将连续帧中的特征累加到检测帧上,同时使用不同尺度的3D卷积提取时间维度特征,以增强检测帧中目标的特征。另一方面,本文设计了一个多尺度空间特征融合模块(multi-scale spatial feature fusion module, MSFM),该模块使用具有不同感受野的卷积层融合不同层次的特征,强化了深层网络对于弱小目标的关注能力,在获得弱小目标语义特征表达的同时兼顾了目标定位的准确性,提高了检测效果。此外,本文构建了一个包含100段序列,共10 000帧图像的多帧红外弱小目标数据集SHU-MIRST,该数据集以半仿真的方式,在真实拍摄的红外背景图像中嵌入红外运动目标,涵盖了多种目标运动方式、背景运动类型及典型场景,且目标的运动轨迹同时考虑了目标自身的移动及背景的位移。同时本文设计了一种基于区域重采样的图像融合算法,使得目标插入背景后符合视觉真实性和物理特性合理性。
本节首先介绍PSTFNet的整体结构,接着介绍网络的特征融合模块,包括PTAM模块和MSFM模块,最后介绍红外弱小目标数据集SHU-MIRST的制作方法。
为了更好地利用序列图像中的时序特征信息和空间特征信息,本文提出了渐进时空特征融合网络(PSTFNet)。如

图1 渐进时空特征融合网络结构:(a)PSTFNet网络整体架构;(b)PTAM模块架构;(c)MSFM模块架构
Fig.1 Progressive spatio-temporal feature fusion network structure:(a)overall architecture of PSTFNet;(b)progressive temporal accumalation module; (c)multi-scale spatial feature fusion module
以
由于本文的主干网络ResUNet中包含4次降采样操作,提取到的最小特征图尺寸仅有原图大小的1/16,目标很容易淹没在降采样操作中,且经过增强后的不同阶段的特征尺寸不同,因此本文使用MSFM模块对进行特征融合,增强深层网络中目标的特征。MSFM模块将输出,,将输入到ResUNet的解码器中,使用ResUNet卷积块和上采样来解码多层特征,并最终通过sigmoid函数以及阈值分割得到检测结果。
在渐进时序特征累积模块(PTAM)中,本文使用了两种方式分别提取时序特征。如
本文认为,红外弱小目标是连续运动的,任意两帧中目标特征的位移应随着时间隔增大而增加,例如第1帧与第3帧之间目标的位移大于第1帧和第2帧之间的位移。本文根据选定两帧之间的帧间间隔选择合适大小的卷积核提取特征,获取相应的感受野,更好地提取时序特征。具体而言,对于相邻的两帧特征,本文使用的卷积核提取前一帧特征累加至后一帧的特征上,对于间隔一帧的特征(例如第帧和第帧),使用的卷积核提取前帧的特征累加至后帧特征上。依次类推,最终,本文使用的卷积核提取第帧的特征累加至第帧的特征上。特别的,对于每帧的原始特征,本文将其通过一个的卷积核,以平衡不同帧中特征的大小。
如
, | (1) |
, | (2) |
, | (3) |
, | (4) |
, | (5) |
, | (6) |
其中,代表卷积核大小为的2D卷积操作,,为sigmoid函数,为矩阵拼接操作,表示对特征的时间维度进行切片操作,取该维度最后一个切片的特征进行后续处理。

图2 渐进时序特征累积模块:(a)P2DConv模块架构;(b)M3DConv模块架构
Fig.2 Progressive temporal accumulation module:(a)architecture of the P2DConv module;(b)architecture of the M3DConv module
此外,3D卷积被广泛应用于视频目标分割领
, | (7) |
, | (8) |
, | (9) |
, | (10) |
, | (11) |
其中,代表卷积核大小为的3D卷积操作。
将通过两种方式提取到的时序特征通过一个sigmoid层,并使用短连接汇聚到检测帧的特征上,从而实现时序特征的提取。最终,经过PTAM模块的输出如
. | (12) |
考虑到红外弱小目标大小在到之
具体而言,MSFM模块的输入为经PTAM模块增强后的不同阶段特征,即前文提到的,,对4个阶段增强后的特征执行交互操作,如
, | (13) |
. | (14) |
接着,为了实现多尺度空间特征融合,本文设计了三个具有不同感受野的卷积层进行并行处理,卷积核的大小分别为、、,并且设置合适的填充和步幅参数对特征分别进行2倍、3倍、4倍的下采样,从而兼顾到不同大小的目标。将卷积得到的结果与原始特征按照通道维度进行拼接得到,计算过程如下:
. | (15) |
为了获取全局感受野,对于多尺度卷积后的特征,将其H、W维度展开,形成一个二维特征,作为自注意力模块的键向量和值向量,作为查询向量,通过自注意力模块获得输出:
, | (16) |
其中,、和为卷积核,为的通道维度大小,为归一化指数函数,。
对于自注意力模块的输出,为了更好地保存局部细节,首先将其通过两个的卷积层进行特征提取,接着按照特征拼接前的维度重新将划分为四个阶段的特征,并加到融合前的特征上,此时认为经过多尺度卷积、自注意力模块的特征具有全图的感受野,融合前的特征为局部特征。为了融合每个阶段的局部特征和全局特征,将全局特征上采样到原始大小,使用两个卷积层分别对局部特征和全局特征进行归一化处理,并将其乘积通过sigmoid函数加权到原始特征上得到最终结果,计算过程如下所示:
, | (17) |
, | (18) |
其中,,代表4个阶段的特征,为上采样操作。MSFM模块输出的特征将作为后续解码器的输入,以得到最终的检测结果。
基于深度学习的算法对数据集的质量、数量及场景多样性有较高的要求。目前,公开可用的多帧红外弱小目标数据集较为稀缺,并且现有数据集没有考虑红外弱小目标的大小、方向、运动轨迹等特性,阻碍了多帧红外弱小目标检测的发展。本文构建了一个半仿真的多帧红外弱小目标数据集SHU-MIRST,该数据集图像分辨率为,由100段序列组成,每段序列包含100帧,共10 000张图像,提供了中心点、边界框以及掩码标注信息,包括城市、天空、河流、植被等场景,该数据集具有多种目标模板、目标运动方式、背景运动类型及典型场景。
SHU-MIRST数据集的仿真流程如

图3 SHU-MIRST数据集仿真流程:(a)背景拍摄;(b)目标模板制作;(c)目标三维建模;(d)区域重采样图像融合算法;(e)目标模板插入
Fig.3 SHU-MIRST dataset simulation flowchart:(a)background shooting;(b)target template production;(c)target 3D modeling;(d)image fusion algorithm for region resampling;(e)target template embedding
红外背景图像由波长范围为8~14 、搭载于无人机上的非制冷氧化钒型红外摄像头拍摄,为了保证背景的多样性,本文针对无人机运动方式、摄像头朝向、相机云台运动方式、拍摄时天气、拍摄地温度等多种情况,多次拍摄得到了134段背景序列图像,并筛选掉高度相似、背景模糊的序列,保留了100段不同场景的序列。考虑到背景运动速度的多样性,根据无人机的运动状态,本文以2~5帧的帧间间隔对拍摄数据进行抽帧,拍摄的背景如
对于红外弱小目标模板,如
本文使用三维建模软件仿真红外弱小目标的运动轨迹,如
对于目标插入阶段,如
高质量的仿真数据集需要保证目标插入背景后符合物理特性上的合理以及视觉特征上的真实。为了保证目标物理特性上合理,本文在目标上施加了一个与目标外接矩形相同大小的高斯模糊函数,保证目标图像融合的平滑
, | (19) |
其中,为融合后图像处的灰度值,为目标模板中处的灰度值,表示目标模板中像元占融合后图像像元的面积,为插入前背景图像处的灰度值,为背景图像中像元占融合后图像像元的面积,由此可得。
通过以上的步骤,数据仿真过程考虑了目标运动的方向、轨迹及透视关系等情况,实现了红外弱小目标数据集的高质量仿真。本文使用平均信杂比(mean signal to clutter ratio, mSCR)评价所提出数据集不同序列的检测难度,SCR为目标灰度值与周围背景区域灰度值差的归一化值,mSCR为一个序列中所有图像SCR的均值,SCR计算公式如
, | (20) |
其中,为目标的均值,和为背景区域的均值与方差,本文取目标外接框向四周分别扩充20像素作为背景区域。
SHU-MIRST数据集的目标大小分布及序列mSCR分布如

图4 SHU-MIRST数据集统计信息:(a)目标大小分布图;(b)序列平均信杂比分布图
Fig.4 SHU-MIRST dataset statistical information: (a) distribution of target sizes;(b) distribution of mean SCR

图5 SHU-MIRST数据集目标运动轨迹样例图
Fig.5 Examples of target motion trajectory in the SHU-MIRST dataset
本文采用红外弱小目标检测领域常见的交并比(intersection over union, IoU)、检测概率(probability of detection, Pd)和虚警率(false-alarm rate, Fa)作为评价指
(1)交并比:交并比是图像分割领域常见的指标,用于评估检测到目标形状的精度,越高表示算法检测目标形状的能力越好。交并比是预测结果与标签之间交集区域面积和两者并集区域面积的比值,计算公式如下:
, | (21) |
其中,为交集区域面积,为并集区域面积。
(2)检测概率:检测概率是一个目标级别的评估指标,它评估了算法准确寻找目标及定位目标的性能,越高表示算法定位目标的能力越好。检测概率的定义如下:
, | (22) |
其中,代表正确检测的目标数,代表标签中所有目标的数量。
(3)虚警率:虚警率用于评估算法抑制虚假警报的能力,越低表示算法抑制虚警的能力越好。虚警率是错误检测目标的数量与所有像素个数的比值,定义如下:
, | (23) |
其中,代表错误检测的目标数,是第张输入图像的像素数,是测试集图像的数量。
(4)ROC曲线:ROC曲线用于评估假阳性率(false positive rate, FPR)与真阳性率(true positive rate, TPR)之间的变化趋势,它展示了不同阈值下检测器的整体性能,ROC曲线下的面积(area under curve, AUC)越大表示算法的整体性能越好。TPR和FPR的定义如下:
, | (24) |
其中,表示真正例像素数,为假正例像素数,表示预测结果中正例像素数。
在评估过程中,本文认为如果预测的目标的质心与标签中目标的质心偏差小于预定义的偏差阈值,则认为这些该目标是正确检测的目标;如果质心偏差大于,则认为这些目标是错误检测的。本文中,被设置为3。
本文在所提出的SHU-MIRST数据集和IRDST-Real数据
本文中所有基于深度学习的方法都是基于Pytorch实现的,计算设备采用Intel Xeon E5-2683 CPU @ 2.10 GHz以及两块Nvidia Titan Xp GPU。在训练过程中,本文使用Adam优化器对网络进行36轮迭代训练,初始学习率设置为0.001,并且每三轮迭代学习率会衰减一半,本文使用Kaiming初始化为网络中所有的卷积层进行初始化。为了缓解目标与背景之间的不平衡,本文采用Soft-IoU损失来训练本文的模型。
为了验证提出模型的效果,本文将PSTFNet与多种基于模型驱动的传统算法进行对比,包括单帧传统算法如Top-Ha
对于所提出的数据集SHU-MIRST,为了考察所提出模型对于目标不同强度时的检测效果,本文计算了测试集中每段序列的mSCR,并根据mSCR将测试集分为mSCR≤3和mSCR>3两部分,分别评估所提出方法及对比方法的IoU、Pd以及Fa指标,结果如
方法 | SHU-MIRST(mSCR≤3) | SHU-MIRST(mSCR>3) | SHU-MIRST(all) | ||||||
---|---|---|---|---|---|---|---|---|---|
IoU/(%) | Pd/(%) | Fa(1 | IoU/(%) | Pd/(%) | Fa(1 | IoU/(%) | Pd/(%) | Fa(1 | |
Top-Hat | 0.00 | 0.83 | 856.81 | 2.67 | 11.17 | 185.81 | 0.93 | 4.45 | 621.96 |
IPI | 0.19 | 2.75 | 80.23 | 2.72 | 14.75 | 57.34 | 1.08 | 6.95 | 72.22 |
PSTNN | 0.00 | 0.14 | 122.94 | 2.41 | 10.31 | 129.36 | 0.84 | 3.70 | 125.19 |
WSLCM | 0.45 | 45.80 | 4 623.48 | 5.61 | 80.22 | 3 562.33 | 2.26 | 57.85 | 4 252.08 |
WSNM-STIPI | 9.61 | 53.61 | 35.95 | 13.67 | 66.01 | 36.35 | 11.03 | 57.95 | 36.09 |
IMNN-LWEC | 0.00 | 0.00 | 32.24 | 0.12 | 3.96 | 139.76 | 0.04 | 1.38 | 69.87 |
ASTTV-NTLA | 0.00 | 0.30 | 80.29 | 0.40 | 5.02 | 34.67 | 0.14 | 1.95 | 64.34 |
RDIAN | 36.40 | 52.07 | 36.46 | 67.36 | 84.84 | 15.40 | 47.23 | 63.54 | 29.09 |
DNANet | 38.74 | 61.82 | 39.75 | 74.19 | 85.56 | 10.60 | 51.14 | 70.13 | 29.55 |
ISNet | 36.17 | 49.01 | 13.15 | 65.33 | 82.46 | 13.23 | 46.38 | 60.72 | 13.18 |
UIUNet | 43.54 | 55.93 | 11.88 | 74.29 | 90.61 | 3.28 | 54.30 | 68.07 | 8.87 |
SSTNet | - | 64.09 | 18.55 | - | 93.56 | 8.92 | - | 74.40 | 15.17 |
ResUNet-DTUM | 51.78 | 68.51 | 13.32 | 75.53 | 93.83 | 6.60 | 60.09 | 77.37 | 10.97 |
DNANet-DTUM | 51.91 | 69.19 | 21.63 | 76.71 | 93.98 | 2.67 | 60.59 | 77.86 | 15.00 |
Ours | 57.68 | 75.80 | 10.80 | 76.28 | 95.08 | 2.69 | 64.19 | 82.55 | 7.97 |

图6 PSTFNet在不同信杂比条件下的ROC曲线:(a)mSCR≤3;(b)mSCR>3;(c)所有序列
Fig.6 ROC curves of PSTFNet under different mSCR: (a) mSCR≤3;(b) mSCR>3;(c) all sequences
对于背景复杂、目标更加暗弱的mSCR≤3的部分序列上,本文提出算法IoU比使用多帧的深度学习如DNANet-DTUM以及ResUNet-DTUM算法高5%以上,比使用单帧的深度学习算法高10%以上,而对于背景信息简单、目标较为显著的mSCR>3的部分序列上,本文提出的PSTFNet与DNANet-DTUM算法各项指标接近,说明本文提出的PSTFNet对低信杂比目标检测时具有更大的优势。
对于真实拍摄的公开数据集IRDST-Real,对比实验结果如
方法 | IoU/(%) | Pd/(%) | Fa(1 |
---|---|---|---|
Top-Hat | 5.39 | 24.66 | 489.28 |
IPI | 9.38 | 36.55 | 37.11 |
PSTNN | 5.79 | 17.58 | 57.05 |
WSLCM | 4.92 | 37.44 | 1 389.62 |
WSNM-STIPI | 17.79 | 59.66 | 38.92 |
IMNN-LWEC | 3.10 | 7.99 | 641.05 |
ASTTV-NTLA | 0.27 | 1.82 | 395.59 |
RDIAN | 47.69 | 86.04 | 3.95 |
DNANet | 50.34 | 82.57 | 5.15 |
ISNet | 50.35 | 82.38 | 3.86 |
UIUNet | 48.73 | 81.54 | 2.70 |
SSTNet | - | 85.11 | 4.83 |
ResUNet-DTUM | 50.31 | 86.19 | 2.87 |
DNANet-DTUM | 50.98 | 87.03 | 3.62 |
Ours | 53.93 | 91.25 | 2.26 |
如

图7 PSTFNet与6种对比算法在SHU-MIRST数据集上的定性实验结果对比图
Fig.7 Qualitative comparison results of PSTFNet and 6 benchmark algorithms on the SHU-MIRST Dataset
如
为了验证本文提出的PTAM模块以及MSFM模块的效果,找到PSTFNet网络中模块的最佳配置,本文在SHU-MIRST数据集上进行了消融实验,结果如
方法 | IoU/(%) | Pd/(%) | Fa(1 |
---|---|---|---|
Backbone | 37.17 | 50.41 | 24.89 |
Backbone + PTAM | 58.10 | 76.23 | 12.13 |
Backbone + MSFM | 40.58 | 56.78 | 11.08 |
PSTFNet | 64.19 | 82.55 | 7.97 |
本文接下来将对PTAM模块的具体配置与组成进行更详细的消融实验,本文设计了两组实验验证PTAM模块的有效性。首先验证PTAM模块的数量对网络性能的影响,本文逐层移除PSTFNet中每一阶段的PTAM模块,实验结果如
方法 | IoU/(%) | Pd/(%) | Fa(1 |
---|---|---|---|
PSTFNet w/o PTAM | 40.58 | 56.78 | 11.08 |
PSTFNet w/o PTAM L123 | 43.26 | 58.95 | 13.14 |
PSTFNet w/o PTAM L12 | 49.04 | 64.02 | 9.95 |
PSTFNet w/o PTAM L1 | 55.33 | 72.60 | 10.29 |
PSTFNet | 64.19 | 82.55 | 7.97 |
此外,PTAM模块中包括P2Dconv模块和M3Dconv模块两部分,本文分别对两部分进行了消融实验,结果如
方法 | IoU/(%) | Pd/(%) | Fa(1 |
---|---|---|---|
PSTFNet w/o PTAM | 40.58 | 56.78 | 11.08 |
PSTFNet w/o M3DConv | 58.74 | 74.99 | 7.17 |
PSTFNet w/o P2Dconv | 53.83 | 66.51 | 13.23 |
PSTFNet | 64.19 | 82.55 | 7.97 |
MSFM模块使用不同的卷积核对特征进行不同尺度的下采样,并通过自注意力模块进行多尺度空间特征融合,以增强深层网络中弱小目标的特征表征,同时获取全局感受野。为了验证多尺度卷积核及自注意力模块的作用,本文针对MSFM模块设计了两种变体:(1)将MSFM模块中多尺度卷积核(Multi-scale Convolution, MC)全部替换为大小为的卷积核,并设置下采样倍率为2,其余部分不变,该变体记作PSTFNet w/o MC;(2)去除MSFM模块中的自注意力模块(Self-Attention, SA),将不同尺度的特征上采样到大小并按元素相加,作为具有全局感受野的特征Fg,其余部分不变,该变体记作PSTFNet w/o SA。本文分别对两种变体进行了消融实验,结果如
方法 | IoU/(%) | Pd/(%) | Fa(1 |
---|---|---|---|
PSTFNet w/o MSFM | 58.10 | 76.23 | 12.13 |
PSTFNet w/o MC | 60.52 | 79.16 | 9.25 |
PSTFNet w/o SA | 62.47 | 81.38 | 17.18 |
PSTFNet | 64.19 | 82.55 | 7.97 |
最后,本文提出的PSTFNet算法通过PTAM模块利用多帧图像对检测帧目标特征进行增强,并使用MSFM模块融合不同层次的特征。从

图8 PSTFNet与主干网络ResUNet在解码器不同阶段的特征响应图
Fig.8 Visualization map of PSTFNet and the backbone network ResUNet at different stage of decoder
本文提出了一种基于渐进时空特征融合的多帧红外弱小目标检测网络,该网络提取连续多帧图像中目标的时序特征以增强检测帧中的目标,同时融合了不同深度的目标特征,避免了深层网络中目标的丢失。设计了一种渐进时序特征累积模块,使用感受野渐进增大的2D卷积以及多尺度的3D卷积提取目标的时序特征,同时设计了一个多尺度空间特征融合模块,使用不同大小的卷积核融合红外弱小目标的空间特征,获得同时具有目标细节信息以及高级语义信息的目标特征,实现红外弱小目标的鲁棒性检测。此外,本文构建了一个半仿真的多帧红外弱小目标数据集SHU-MIRST,该数据集考虑了目标的自身运动及背景位移的复合,涵盖了多种目标模板、运动轨迹及场景类型,同时设计了一种基于区域重采样的图像融合算法,实现了高质量的红外目标嵌入,具有较好的仿真效果。在SHU-MIRST数据集和公开的IRSTD-Real数据集上的测试表明,与多个主流算法相比,所提出网络的交并比、检测概率及虚警率指标均有更好的表现,尤其是在目标强度较弱、背景较为复杂的序列上,验证了本文提出的算法在红外弱小目标检测方面的有效性和鲁棒性。本文所提出的数据集及相关代码会在不久后公开在https://github.com/danZengSHU/PSTFNet。
References
Zhang M, Zhang R, Zhang J, et al. Dim2Clear network for infrared small target detection [J]. IEEE Transactions on Geoscience and Remote Sensing, 2023, 61: 1-14. [百度学术]
Luo K. Space-based infrared sensor scheduling with high uncertainty: issues and challenges [J]. Systems Engineering, 2014, 18(1): 102–113. DOI: 10.1002/sys.21295. [百度学术]
Deshpande S D, Er M H, Ronda V, et al. Max-mean and max-median filters for detection of small targets[C]. Signal and Data Processing of Small Targets 1999. SPIE, 1999, 3809: 74-83. [百度学术]
Zeng M, Li J, Peng Z. The design of Top-Hat morphological filter and application to infrared target detection [J]. Infrared Physics & Technology, 2006, 48(1): 67-76. DOI: 10.1016/j.infrared.2005.04.006. [百度学术]
Chen C L P, Li H, Wei Y, et al. A local contrast method for small infrared target detection [J]. IEEE Transactions on Geoscience and Remote Sensing, 2013. DOI: 10.1109/TGRS.2013.2242477. [百度学术]
Han J, Moradi S, Faramarzi I, et al. Infrared small target detection based on the weighted strengthened local contrast measure [J]. IEEE Geoscience and Remote Sensing Letters, 2020, PP(99): 1-5. DOI: 10.1109/LGRS.2020.3004978. [百度学术]
Gao C, Meng D, Yang Y, et al. Infrared patch-image model for small target detection in a single image [J]. IEEE Transactions on Image Processing, 2013, 22(12): 4996-5009. DOI: 10.1109/TIP.2013.2281420. [百度学术]
Zhang L, Peng Z. Infrared small target detection based on partial sum of the tensor nuclear norm [J]. Remote Sensing, 2019, 11(4): 382. DOI: 10.3390/rs11040382. [百度学术]
Li H, Wang N, Ding X, et al. Adaptively learning facial expression representation via cf labels and distillation [J]. IEEE Transactions on Image Processing, 2021, 30: 2016-2028. [百度学术]
Dai Y, Wu Y, Zhou F, et al. Asymmetric contextual modulation for infrared small target detection[C]. Proceedings of the IEEE/CVF Winter Conference on Applications of Computer Vision. 2021: 950-959. [百度学术]
Li B, Xiao C, Wang L, et al. Dense nested attention network for infrared small target detection [J]. IEEE Transactions on Image Processing, 2022, 32: 1745-1758. [百度学术]
Wu X, Hong D, Chanussot J. UIU-Net: U-Net in U-Net for infrared small object detection [J]. IEEE Transactions on Image Processing, 2022, 32: 364-376. [百度学术]
Zhang M, Zhang R, Yang Y, et al. ISNet: Shape matters for infrared small target detection[C]. Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2022: 877-886. [百度学术]
Li B, Wang Y, Wang L, et al. Monte Carlo linear clustering with single-point supervision is enough for infrared small target detection[C]. Proceedings of the IEEE/CVF International Conference on Computer Vision. 2023: 1009-1019. [百度学术]
Lin Z, Li B, Li M, et al. Light-weight infrared small target detection combining cross-scale feature fusion with bottleneck attention module[J]. Journal of Infrared and Millimeter Waves (林再平,李博扬,李淼,等.结合跨尺度特征融合与瓶颈注意力模块的轻量型红外小目标检测网络[J].红外与毫米波学报), 2022, 41(6): 1102-1112. [百度学术]
Li B, Wang L, Wang Y, et al. Mixed-precision network quantization for infrared small target segmentation [J]. IEEE Transactions on Geoscience and Remote Sensing, 2024. [百度学术]
Liu T, Yang J, Li B, et al. Nonconvex tensor low-rank approximation for infrared small target detection [J]. IEEE Transactions on Geoscience and Remote Sensing, 2021, 60: 1-18. [百度学术]
Sun M A W. Infrared small target detection via spatial-temporal infrared patch-tensor model and weighted Schatten p-norm minimization [J]. Infrared Physics and Technology, 2019, 102. [百度学术]
Liu T, Yang J, Li B, et al. Infrared small target detection via nonconvex tensor tucker decomposition with factor prior [J]. IEEE Transactions on Geoscience and Remote Sensing, 2023. [百度学术]
Yan P, Hou R, Duan X, et al. STDMANet: Spatio-temporal differential multiscale attention network for small moving infrared target detection [J]. IEEE Transactions on Geoscience and Remote Sensing, 2023, 61: 1-16. [百度学术]
Chen S, Ji L, Zhu J, et al. SSTNet: Sliced spatio-temporal network with cross-slice ConvLSTM for moving infrared dim-small target detection [J]. IEEE Transactions on Geoscience and Remote Sensing, 2024. [百度学术]
Li R, An W, Xiao C, et al. Direction-coded temporal U-shape module for multiframe infrared small target detection [J]. IEEE Transactions on Neural Networks and Learning Systems, 2023. [百度学术]
Hui B W, Song Z Y, Fan H Q, et al. A dataset for infrared image dim-small aircraft target detection and tracking under ground / air background[J/OL]. [百度学术]
Science Data Bank回丙伟, 宋志勇, 范红旗, 等. 地/空背景下红外图像弱小飞机目标检测跟踪数据集[J/OL]. 中国科学数据, 2020,5(3).DOI:10.11922//csdata.2019.0074.2h. [百度学术]
Sun X L, Guo L C, Zhang W L, et al. A dataset for small infrared moving target detection under clutter background[J/OL]. Science Data Bank孙晓亮, 郭良超, 张文龙,等. 复杂背景下红外弱小运动目标检测半仿真数据集[J]. 中国科学数据, 2022[2024-03-18]. [百度学术]
Sun H, Bai J, Yang F, et al. Receptive-field and direction induced attention network for infrared dim small target detection with a large-scale dataset IRDST [J]. IEEE Transactions on Geoscience and Remote Sensing, 2023, 61: 1-13. [百度学术]
Xiao X, Lian S, Luo Z, et al. Weighted Res-UNet for high-quality retina vessel segmentation[C]. 2018 9th International Conference on Information Technology in Medicine and Education (ITME). IEEE Computer Society, 2018, 327-331. DOI: 10.1109/ITME.2018.00080. [百度学术]
Zhang L, Zhu G, Shen P, et al. Learning spatiotemporal features using 3dcnn and convolutional lstm for gesture recognition[C]. Proceedings of the IEEE International Conference on Computer Vision Workshops. 2017: 3120-3128. [百度学术]
Li Y, Ji B, Shi X, et al. Tea: Temporal excitation and aggregation for action recognition[C]. Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2020: 909-918. [百度学术]
Vaswani A, Shazeer N, Parmar N, et al. Attention is all you need [J]. Advances in Neural Information Processing Systems, 2017, 30. [百度学术]
Lowe D G. Object recognition from local scale-invariant features[C]. Proceedings of the Seventh IEEE International Conference on Computer Vision. IEEE, 1999, 2: 1150-1157. [百度学术]
Luo Y, Li X, Chen S, et al. IMNN-LWEC: A novel infrared small target detection based on spatial–temporal tensor model [J]. IEEE Transactions on Geoscience and Remote Sensing, 2022, 60: 1-22. [百度学术]