摘要
弱小目标检测一直是红外图像处理领域的经典问题,通常所关注的弱小目标在亮度上高于所在的局部背景。然而在一些场景下,目标辐射能量会弱于背景,如在高空中巡航的民航飞机,由于机身蒙皮温度低于地表,在中等空间分辨率的热红外卫星图像上呈现为暗弱点目标。针对暗弱目标形态特征少、现有目标检测网络结构冗余的问题,提出了一种基于可形变注意力机制的极轻量级暗弱目标单帧检测网络AirFormer,参数量仅为37.1 K,在256×256尺寸的图像上浮点运算次数仅有46.2 M。此外,针对当前红外图像暗弱目标检测数据集缺乏的问题,通过对热红外卫星图像民航飞机的特性进行分析,提出了一种中等空间分辨率热红外卫星图像民航飞机的简易仿真方法,并以民航飞机为仿真对象构建了红外图像暗弱目标检测数据集——IRAir数据集。在IRAir数据集上进行验证,所提的AirFormer网络对暗弱点目标的召回率可达71.0%,检测准确率可达82.6%。此外,基于仿真数据训练,AirFormer可有效检出热红外卫星图像上真实的民航飞机。
随着全球经济规模不断扩大,民用航空作为最快捷的长途交通运输方式,将在未来几十年内持续保持稳定的增长态势。据国际航空运输协会预测,2024年全球航班将超4千万班次,客运量将突破47亿人
当前民航交通管控主要依赖地基雷达(工作距离通常为几百公里)和自动相关监视系统(ADS-B、ADS-C),对于海洋区域上空非合作状态下的飞机缺乏有效实时监控手段。而卫星遥感图像可以提供全球范围的地理影像,通过图像检测算法可以获取民航位置信息,可以为民航交通管制提供补充信息。中等空间分辨率卫星影像(通常为空间分辨率在5~100 m的卫星图像)可以对地表实现较宽的幅宽覆盖,同时空中民航目标在图像上仍然能呈现一定的信息。近年来,一些学者在中等空间分辨率卫星影像上进行了空中民航目标检测的探索。Zha

图1 SDG卫星1号实测空中民航飞机的热红外图像:(a)8~10.5 μm;(b)10.3~11.3 μm;(c)11.5~12.5 μm
Fig. 1 The thermal infrared images of real civial airplanes capured by SDGSAT-1: (a) 8~10.5 μm; (b) 10.3~11.3 μm; (c) 11.5~12.5 μm
当前红外小目标检测技术通常关注于自身能量高于背景的亮目标,对长波红外卫星图像在飞民航等暗弱目标的研究较少。现有技术可分为基于模型驱动的方法和基于数据驱动的方法。基于模型驱动的方法主要集中在基于图像滤波和基于稀疏低秩重建两类方法。基于图像滤波方法利用目标的亮度异常性以及背景区域灰度缓变性来实现对背景区域的抑
此外,基于数据驱动的目标检测方法需要大量有标注样本进行学习,但是红外图像暗弱目标尺寸极小、灰度与背景接近,部分目标不能占据一个完整像素,人眼难以辨识,人工标注工作量较大且易产生错标、漏标。L
针对上述红外图像暗弱目标检测方法和数据两方面问题,本文分别进行了相应的探索。在检测方法上,本文提出了一种非卷积结构的极轻量级单帧图像暗弱目标检测网络,模型参数量仅为37.1 K,在256×256尺寸的图像上浮点运算次数仅为46.2 M。针对真实暗弱目标数据集缺乏、弱目标人工标注难的问题,本文提出了一种简单易行的暗弱目标仿真方法,并在卫星热红外图像上进行验证,可生成与空中民航飞机高度相似的仿真暗弱目标。以实测的长波红外(Infrared)卫星图像为背景图像,以巡航态民航飞机(Airplanes)为仿真目标,本文构建了红外图像暗弱目标检测仿真数据集,将其命名为IRAir数据集。考虑到单帧单通道图像所提供信息难以去除与民航飞机具有相似形态的虚警,IRAir数据集仿真了2 000段长波红外图像序列,可用于运动暗弱目标检测方法的研究与开发。本数据集是领域内第二个热红外卫星图像民航目标检测数据,也是首个热红外卫星视频民航目标检测数据集。此外,本文利用IRAir数据集提供的仿真目标训练集对所提的单帧暗弱目标检测网络进行训练,进而在包含真实民航目标的SDG卫星1号长波红外图像进行推理,发现基于仿真数据集训练的检测模型对真实民航目标仍具有较好的检测性能,验证了本文所提方法和所仿数据集的有效性。
如
近年来,基于Transforme
, | (1) |
其中linear表示线性层,为扩维后的图像。由于单帧图像上暗弱目标形状特征极少,再使用骨干网络提取图像深层特征意义不大,因此本文将扩维图像直接视为网络特征图。在自然语言处理领域,Transformer网络处理的基本单元为表征单词信息的一维特征向量,被称为token,译作“词元”或者“令牌”。在当前DETR类检测网络中,token被视为特征图上各像素上的一维特征向量。借鉴于遥感领域中的“像元”概念,本文将特征图上各特征向量称为特征像元。

图2 AirFormer网络结构示意图
Fig. 2 Schematic diagram of AirFormer network structure
相比于通用检测任务所处理的目标,暗弱目标形态较为简单,网络所需要关注空间范围较小,因此使用一层线性层得到的特征图可以支撑后续目标定位和识别。Deformable DETR采用了一种局部空间稀疏采样的注意力机制,对每一个像素位置只关注邻域内有限数量的采样点。本文对Deformable DETR单层编码器结构进行简化,直接在特征图上利用简化后的可形变注意力模块提取各特征像元的邻域空间特征,再利用所提取的特征来预测该特征像元存在目标的可能性以及目标的位置框。具体而言,对选定的特征像元,将其视为查询特征像元,然后使用正弦编码计算出对应的位置编码,进而得到嵌入特征像元位置信息的query向量:
, | (2) |
其中,表示垂直位置,表示水平位置,。此外,线性层对query向量进行降维,来降低后续采样点位置映射的计算量。利用简化后的可形变注意力模块,计算特征像元对应的注意力特征向量:
, | (3) |
其中,,为注意力模块的多头数目,为各注意力头的采样点数目,和为注意力头和采样点的索引。表示各采样点的注意力权重,为可学习变量,范围为,满足。和表示采样点相对与的位置偏移量,而表示使用双线性插值从特征图采样得到的特征像元。和均是由经过线性映射得到的采样点位置:
, | (4) |
. | (5) |
各采样点的位置和注意力权重可以随网络训练动态调整。实际上,AirFormer的注意力模块可以视为自适应的目标特征提取模板。在计算出注意力特征向量后,再对特征像元进行更新:
, | (6) |
其中,表示层归一化(layer normalization)层。
得到融合局部空间特征和像素自身特征的向量后,再将其分别送入置信度预测模块和位置预测模块,来分别得到像素位置附近存在目标的置信度和目标矩形预测框。置信度预测模块和位置预测模块均为由4层线性层构成的多层感知机(multi layer perceptron,MLP),两层相邻的线性层由ReLU激活函数相连,最后一层线性层的输出特征量送入激活函数。置信度预测模块和位置预测模块前三层线性层的输入维度和输出维度以及最后一层线性层的输入维度均为。置信度预测模块最后一层线性层的输出特征维度为1,输出特征用于表征目标存在的置信度。置信度预测可用下式来描述:
, | (7) |
其中表示激活函数,MLP表示多层感知机,为目标预测框的置信度,经过激活函数后的数值区间为,越接近1表示预测框属于目标的可能性越大。位置预测模块最后一层线性层的输出特征维度为4,输出特征量分别对应目标中心点横轴坐标、中心点纵轴坐标、目标框宽度和目标框高度。为了便于网络训练,在的像素位置上预设了一个初始锚框,其中,和为锚框的中心,设为对应的像素中心,和为锚框的宽和高,分别设为图像宽和高的0.01。将和送入位置预测模块,来得到目标的预测矩形框:
. | (8) |
考虑到经过归一化后的目标矩形框的中心坐标、宽和长范围在内,因此先对进行了逆操作,加上由MLP输出的位置偏移预测量后再用激活函数映射到。
将特征图每一个特征像元都当做查询特征像元来处理存在较大冗余。本文对特征图进行稀疏采样来选择查询特征像元。将特征图划分成若干个S×S大小的不重叠的图像块,S为正整数,每个图像块上选择相对位置固定的特征像元作为该图像块的查询像元。设选择出的查询像元数目为,在注意力模块中,查询向量降维操作的计算复杂度为,注意力权重和采样点生成的计算复杂度为,而双线性插值采样以及注意力加权求和的计算复杂度为,而最后线性层的运算复杂度为。此外,注意力模块后续的模块总的计算复杂度也为。因此,查询像元数目对AirFormer计算量有较大的影响。本文将S设为2,即每2×2邻域产生一个查询像元,这样既不会使查询像元分布过于稀疏,又可以实现较大程度的计算量降幅。
在训练阶段,AirFormer使用DETR的基于匈牙利算法的标签分配策略,损失函数也采用DETR所使用的由预测框GIoU损失函数、预测框L1损失函数以及Focal类别预测损失函
在推理阶段,AirFormer对预测的目标框依次进行了坐标取整以及预测结果过滤等后处理操作。本文所关注的目标尺寸与图像最小单元(单个像素)接近,而经过网络输出的坐标预测结果均为带小数,当预测坐标与真值坐标相差为小于0.5的纯小数时,即可认为预测坐标与真值坐标完全贴合。但若结果保留小数,预测坐标框与真值坐标框之间的交并比可能偏小。因此对目标的坐标预测值进行四舍五入取值处理,若取整后的长或宽为0,取未取整时长或宽中心点所在像素的长或宽替换。在坐标取整后,使用目标检测任务中常用的非极大值抑制方法(non-maximum suppression,NMS)来处理预测框目标重叠情况,只保留重叠预测框中置信度最大的预测框。此外,可根据实际检测任务对漏检和虚警的不同需求来设置置信度阈值,移除置信度低于阈值的预测框。如需低漏检率,置信度阈值需设置较低数值;如需低虚警率,置信度阈值需设置较高数值。
本节对
序号 | 经度 | 纬度 | 日期 | 当地时间 | 局部 背景 |
---|---|---|---|---|---|
目标一 | 125.22°E | 30.86°N | 23.03.16 | 09:37 | 海 |
目标二 | 115.16°E | 39.65°N | 23.03.22 | 20:30 | 陆地、云 |
目标三 | 123.71°E | 37.32°N | 23.08.03 | 09:42 | 海 |
目标四 | 118.42°E | 34.28°N | 23.10.01 | 09:01 | 陆地、云 |
目标五 | 126.34°E | 37.21°N | 23.10.17 | 20:41 | 海 |
. | (9) |
序号 | 波段 | 目标 灰度值 | 局部背景 平均灰度值 | 差值比例 |
---|---|---|---|---|
目标一 | B1 | 1 419 | 1 562 | 9.17% |
B2 | 1 644 | 1 817 | 9.53% | |
B3 | 1177 | 1 260 | 6.59% | |
目标二 | B1 | 1 014 | 1 044 | 2.92% |
B2 | 1 198 | 1 239 | 3.34% | |
B3 | 858 | 875 | 1.98% | |
目标三 | B1 | 1 804 | 1 917 | 5.91% |
B2 | 2 036 | 2 164 | 5.96% | |
B3 | 1 398 | 1 461 | 4.37% | |
目标四 | B1 | 1 652 | 1 724 | 4.21% |
B2 | 1 880 | 1 967 | 4.44% | |
B3 | 1 318 | 1 359 | 3.08% | |
目标五 | B1 | 1 668 | 1 773 | 5.95% |
B2 | 1 928 | 2 041 | 5.58% | |
B3 | 1 370 | 1 425 | 3.88% |
从
本文基于上一节分析的热红外卫星图像空中民航飞机特性提出了一个简易的暗弱目标仿真方法,可为基于深度学习的暗弱目标检测技术发展提供大规模目标样本支撑。该仿真方法的主要输入为热红外卫星图像、目标长度、目标中心点位置(x,y)、目标航向角(航向与水平线的夹角)、灰度值差值比例和高斯模糊核标准差,其中目标中心点位置取值范围为图像尺寸范围内的任意实数。然后通过目标全像元灰度计算、目标丰度矩阵计算、目标灰度注入三步在图像上生成仿真目标。
1)目标全像元灰度计算
由上一节分析可知,热红外卫星图像空中民航飞机灰度值与背景灰度值存在正线性相关性。考虑到图像可能存在云背景,计算图像中前30%高的灰度值求平均值,则目标全像元灰度值设为。
2)目标丰度矩阵计算
如
3)目标灰度注入
依据线性混合模型,将目标灰度注入到图像上:
, | (10) |
其中,是原始热红外图像上像素处的灰度值,是添加仿真目标后的像素灰度值。

(a)

(b)

(c)

(d)
图3 目标丰度矩阵计算流程示意图:(a)目标形状建模;(b)形状模型嵌入图像;(c)目标丰度矩阵计算;(d)丰度矩阵高斯模糊
Fig. 3 Schematic diagram of the calculation for object abundance matrix: (a) object shape modeling; (b) shape model embedding in image; (c) object abundance matrix calculation; (d) Gaussian blurring of the abundance matrix
如

(a)

(b)

(c)
图4 实测目标一及其仿真目标:(a)仿真图像;(b)真实目标;(c)仿真目标
Fig. 4 The 1st real civial aircraft and its simulation: (a) simulated image; (b) real object; (c) simulated object

(a)

(b)

(c)
图5 实测目标五及其仿真目标:(a)仿真图像;(b)真实目标;(c)仿真目标
Fig. 5 The 5th real civial aircraft and its simulation: (a) simulated image; (b) real object; (c) simulated object
参数 | 目标1 | 目标2 |
---|---|---|
坐标 | (10.2,10.7) | (10.3,9.95) |
目标长度 | 80 m | 80 m |
航向角 | 45° | 0° |
差值比例 | 0.18 | 0.11 |
高斯模糊标准差 | 0.7 | 0.7 |
基于SDG卫星1号的实测热红外图像和上一节所提的暗目标仿真方法,本文构建了红外序列图像暗弱动目标数据集,命名为IRAir。数据集包含2 000段序列图像,训练集和测试集各1 000段序列,每段序列包含50张相同背景基底的单波段仿真图像,图像尺寸为256×256,保存为TIFF图像格式。为贴合人眼样本标注,本文将目标丰度大于0.1的像素集合的最大外接矩形作为目标的标注框。考虑到动目标检测方法通常需要利用多帧序列图像信息,将每段序列后30帧图像作为训练和测试图像,前20帧图像留作动目标检测方法开发的备用前序图像。下文将进一步介绍目标仿真设置和仿真场景设置。
目标长度:不同类型民航飞机尺寸差异较大,如波音747-8洲际客机机身长为76.3 m,翼展为68.4 m,而空客A320中短程客机机身长为37.6 m,翼展为34.1 m。因此,本文将目标长度取值设为40 m、50 m、60 m、70 m和80 m,各取值的目标数目比例设为3:3:1:1:1。
目标速度:当前民航飞机基本为亚音速飞机,本文将目标速度范围设为800~900 km/h,在30 m空间分辨率的图像上对应的目标速度范围为7.4~8.3 pixel/s。
目标灰度:目标灰度值差值比例取值范围设0.1~0.2。
高斯模糊:高斯模糊核的标准差固定为0.7。
目标轨迹:本文设置了匀速直线运动和匀速圆周运动两类民航目标的运动轨迹,目标航向取值范围为-180°~180°。
目标起始状态:50%的目标在起始帧出现,剩余50%的目标在第5帧到第35帧之间出现。起始帧出现的目标初始位置取值范围为整张图像,非起始帧出现的目标初始位置位于图像边界。
目标长度、目标速度、目标灰度、目标轨迹和目标初始状态都在取值范围内随机组合,以保证目标样本的多样性和丰富性。
为进一步丰富场景多样性,除了目标相关参数设置之外,本文还考虑了图像帧频、成像波段、帧间位移、图像噪声等
帧频:取值范围为1~10帧每秒(FPS)。
波段:每段序列从B1、B2和B3三个波段中任选一个。
帧间位移:由于观测平台震颤以及运动等因素,视频图像帧间存在位移。在仿真中,本文引入帧间位移量。起始帧不做位移处理,后续的每一帧图像都相对起始帧偏移像素。对于第帧图像,其沿水平轴和垂直轴的偏移量分别为:
, | (11) |
, | (12) |
其中,为第帧图像的偏移方向角,取值范围为[]。取值为0、1和2像素。在计算出偏移量后,使用双线性插值法获得偏移后的图像。
图像噪声强度:在添加仿真目标后的图像上,通过下式向其添加噪声:
, | (13) |
其中,是仿真图像上像素处的灰度值,是添加噪声后的像素灰度值,为服从均值为0、标准差为的随机变量。取值为0.002或0.005,本文称为噪声强度。
目标数量:每段序列目标数目设为3~10之间的随机整数。
目标遮掩场景:当以目标位置为中心的5×5窗口的背景均值小于仿真目标全像元灰度,认为目标被遮掩,不添加该目标。
场景 类型 | 训练集 序列数 | 训练集目标数 | 测试集序列数 | 测试集目标数 | |
---|---|---|---|---|---|
波段 | B1 | 301 | 1 970 | 338 | 2 260 |
B2 | 363 | 2 271 | 345 | 2 332 | |
B3 | 336 | 2 131 | 317 | 1 977 | |
帧频 | 1~5 FPS | 480 | 3 059 | 499 | 3 229 |
6~10 FPS | 520 | 3 313 | 501 | 3 340 | |
帧间 位移 | 0像素 | 339 | 2 158 | 315 | 2 063 |
1像素 | 339 | 2 157 | 361 | 2 374 | |
2像素 | 322 | 2 057 | 324 | 2 132 | |
噪声 强度 | 0.002 | 497 | 3 200 | 467 | 3 079 |
0.005 | 503 | 3 172 | 533 | 3 490 | |
总计 | 1 000 | 6 372 | 1 000 | 6 569 |

(a)

(b)

(c)

(d)
图6 仿真序列示例:(a)序列0041;(b)序列0077 ;(c)序列0266 ;(d)序列0393
Fig. 6 Simulated sequence examples: (a) sequence 0041; (b) sequence 0077; (c) sequence 0266; (d) sequence 0393
参数 | 序列 0041 | 序列 0077 | 序列 0266 | 序列 0393 |
---|---|---|---|---|
波段 | B2 | B2 | B3 | B3 |
帧频 | 1 FPS | 6 FPS | 2 FPS | 10 FPS |
帧间位移 | 0像素 | 1像素 | 2像素 | 2像素 |
噪声强度 | 0.002 | 0.002 | 0.005 | 0.002 |
目标数量 | 4 | 10 | 8 | 5 |
本文在IRAir数据集上对所提出的AirFormer网络进行了评测。AirFormer的特征维度C设为64,c设为8,注意力模块的多头数目M设为32,每个注意力头的采样点数设为4。网络输入图像尺寸为256×256,训练迭代轮数设为50轮,批次大小设为8,使用Adam优化器,学习率初始化为0.0001,在40轮时学习率减小为原始的0.1。此外,本文还对RGB图像通用目标检测网络CornerNe
本文采用COCO数据
, | (14) |
F1分数越高,表示检测方法性能越好。在召回率Re、准确率Pr和F1分数的计算中,需要考虑预测框与真值框的交并比阈值以及预测框置信度阈值来判断预测框是否为虚警。本文将预测框与真值框的交并比阈值设为0.2。各类算法的预测框置信度阈值以0.1的步长从0.1遍历到0.9,取F1分数最大时的召回率、准确率和F1分数作为被测算法性能的评测结果。所有预测框均值坐标取整处理。考虑到同一序列各帧图像较为相似,本文只评测各测试序列第30帧、第40帧和第50帧图像。
本文还评测了各算法的网络模型参数量、输入图像尺寸为256×256时的浮点运算次数(floating point operations,FLOPs)用于比较算法的复杂度。此外,本文测试了输入单张256×256图像各单帧目标检测算法的推理时间。由于DSFNet为视频动目标检测算法,因此测试了DSFNet同时输入5张256×256序列图像进行推理所用时间。推理耗时只计算图像在网络中前传所用时间,不包含图像加载时间和后处理时间。
如
方法 | CornerNet | YOLOv3 | Deformable DETR | RTMDET-tiny | YOLOX-tiny | DSFNet | AirFormer |
---|---|---|---|---|---|---|---|
AP | 0.336 | 0.270 | 0.274 | 0.350 | 0.398 | 0.233 | 0.349 |
AP20 | 0.770 | 0.752 | 0.709 | 0.812 | 0.765 | 0.528 | 0.737 |
召回率 | 0.738 | 0.766 | 0.688 | 0.544 | 0.716 | 0.504 | 0.710 |
准确率 | 0.904 | 0.902 | 0.897 | 0.675 | 0.843 | 0.932 | 0.826 |
F1 | 0.812 | 0.828 | 0.779 | 0.603 | 0.774 | 0.653 | 0.764 |
参数量 | 201.0M | 61.5M | 41.1M | 2.7M | 2.7M | 17.0M | 37.1K |
FLOPs | 112.8G | 12.4G | 15.0G | 5.9G | 5.5G | 12.2G | 46.2M |
推理耗时 | 29.4 ms | 11.7 ms | 32.3 ms | 10.6 ms | 9.1 ms | 50.1 ms | 5.7 ms |
在网络规模显著降低的情况下,AirFormer在IRAir数据集上实现了对暗弱目标较佳的检测效果,AP性能可达0.349,召回率可达0.710,准确率可达0.826。AirFormer以及仅使用一层低层特征图的RTMDET-tiny和YOLOX-tiny在AP指标均高于CornerNet、YOLOv3、Deformable DETR,但是在召回率、准确率和F1分数上有较大劣势。在不同评价指标下算法检测性能对比结果并不一致,AP指标过多关注预测框对真值框的贴合能力,因此使用原始尺寸或者仅一次下采样的特征图的检测网络在AP指标上取得较好的评估结果。但实际上,对于IRAir数据集中的极小尺寸目标而言,目标与背景的区分边界并不明显,此类目标的检测方法设计不必过于追求预测框与真值框的高重合度。此外,基于多帧图像的运动目标检测网络DSFNet并没有显示出优于当前单帧目标检测网络的性能,可能是由各序列的帧间位移和帧频类型多样、时域特征不稳定导致的。利用低质量序列图像数据实现运动目标检测仍是日后需要进一步研究的难点。
目标长度/m | 真值数 | 检出数 | 召回率/% |
---|---|---|---|
40 | 6 222 | 3 016 | 48.5 |
50 | 6 154 | 4 626 | 75.2 |
60 | 2 109 | 1 838 | 87.2 |
70 | 2 016 | 1 798 | 89.2 |
80 | 2 062 | 1 909 | 92.6 |
利用IRAir数据集训练出来的AirFormer网络对2.1节中所分析的五个实测空中民航飞机共15张单通道红外图像进行检测,检测结果可视化情况如

(a)

(b)

(c)

(d)

(e)
图7 AirFormer对实测暗弱目标检测结果图:(a)实测目标一;(b)实测目标二;(c)实测目标三;(d)实测目标四;(e)实测目标五
Fig. 7 The detection results of AirFormer for real civil airports: (a) the 1st real airport; (b) the 2nd real airport; (c) the 3rd real airport; (d) the 4th real airport; (e) the 5th real airport
针对红外图像暗弱目标检测这一新挑战,本文进行了检测方法和数据集两方面的工作。在检测方法方面,本文提出了一种基于可形变注意力机制的极轻量级暗弱目标检测网络,参数量仅为37.1 K,在256×256尺寸的图像上浮点运算次数仅为46.2 M。在数据集方面,针对真实暗弱目标数据集缺乏、弱目标人工标注难的问题,本文构建了红外图像暗弱目标检测仿真数据集IRAir。所提的网络利用单帧图像信息在IRAir数据集上实现了暗弱目标71.0%召回率和82.6%检测准确率。在实测红外图像上进行验证,利用仿真数据训练出的网络在海背景上对真实暗弱目标实现了较佳的检测结果。同时也发现,复杂背景以及极小尺寸的目标仍是检测的难点和挑战,需要后续工作中进一步探索。
References
IATA. Airlines Set to Earn 2.7% Net Profit Margin on Record Revenues in 2024[EB/OL]. (2023-12-06) [2024-04-28]. https://www.iata.org/en/pressroom/2023-releases/2023-12-06-01/. [百度学术]
Zhao F, Xia L, Kylling A, et al. Detection flying aircraft from Landsat 8 OLI data [J]. ISPRS Journal of Photogrammetry and Remote Sensing, 2018, 141: 176-184. [百度学术]
Liu Y, Xu B, Zhi W, et al. Space eye on flying aircraft: From Sentinel-2 MSI parallax to hybrid computing [J]. Remote Sensing of Environment, 2020, 246: 111867. [百度学术]
Fehrm B. Bjorn’s Corner: Supersonic transport revival, Part 6[EB/OL]. (2018-09-14) [2024-04-29]. https://leehamnews.com/2018/09/14/bjorns-corner-supersonic-tra nsport-revival-part-6/. [百度学术]
Li L, Zhou X, Hu Z, et al. On-orbit monitoring flying aircraft day and night based on SDGSAT-1 thermal infrared dataset [J]. Remote Sensing of Environment, 2023, 298: 113840. [百度学术]
Zhu H, Zhang X, Chen X, et al. Dim small targets detection based on horizontal-vertical multi-scale grayscale difference weighted bilateral filtering [J]. Journal of Infrared and Millimeter Waves, 2020, 39(4): 513-522. [百度学术]
Gao C, Zhang T, Li Q. Small infrared target detection using sparse ring representation [J]. IEEE Aerospace and Electronic Systems Magazine, 2012, 27(3): 21-30. [百度学术]
Liu T, Yang J, Li B, et al. Infrared small target detection via nonconvex tensor tucker decomposition with factor prior [J]. IEEE Transactions on Geoscience and Remote Sensing, 2023, 61: 1-17. [百度学术]
Lin Z P, Li B Y, Li M, et al. Light-weight infrared small target detection combining cross-scale feature fusion with bottleneck attention module [J]. Journal of Infrared and Millimeter Waves, 2022, 41(6): 1102-1112. [百度学术]
林再平, 李博扬, 李淼, 等. 结合跨尺度特征融合与瓶颈注意力模块的轻量型红外小目标检测网络[J]. 红外与毫米波学报, 2022, 41(6): 1102-1112. [百度学术]
Lin Z P, Luo Y H, Li B Y, et al. Gradient-aware channel attention network for infrared small target image denoising before detection [J]. Journal of Infrared and Millimeter Waves, 2024, 43(2): 254-260. [百度学术]
Lin T Y, Maire M, Belongie S, et al. Microsoft coco: Common objects in context [C]. Proceedings of the European Conference on Computer Vision. Cham: Springer International Publishing, 2014: 740-755. [百度学术]
Vaswani A, Shazeer N, Parmar N, et al. Attention is all you need [C]. Proceedings of the 31st International Conference on Neural Information. New York: ACM, 2017, 6000-6010. [百度学术]
Carion N, Massa F, Synnaeve G, et al. End-to-end object detection with transformers [C]. Proceedings of the European Conference on Computer Vision. Cham: Springer International Publishing, 2020: 213-229. [百度学术]
Zhu X, Su W, Lu L, et al. Deformable detr: Deformable transformers for end-to-end object detection [J]. arxiv preprint arxiv:2010.04159, 2020. [百度学术]
Liu S, Li F, Zhang H, et al. Dad-detr: Dynamic anchor boxes are better queries for detr [J]. arxiv preprint arxiv:2201.12329, 2022. [百度学术]
Li Z, An W, Guo G, et al. SpecDETR: A transformer-based hyperspectral point object detection network [J]. arXiv preprint arXiv:2405.10148, 2024. [百度学术]
Xu Q, Wang L, Sheng W, et al. Heterogeneous graph transformer for multiple tiny object tracking in RGB-T videos [J]. IEEE Transactions on Multimedia, 2024, 26: 9383-9397. [百度学术]
Lin T Y, Goyal P, Girshick R, et al. Focal loss for dense object detection [C]. Proceedings of the IEEE International Conference on Computer Vision. Piscataway, NJ: IEEE, 2017: 2980-298. [百度学术]
Law H, Deng J. Cornernet: Detecting objects as paired keypoints [C]. Proceedings of the European Conference on Computer Vision. Cham: Springer International Publishing, 2018: 734-750. [百度学术]
Redmon J, Farhadi A. YOLOv3: An incremental improvement [J]. arxiv preprint arxiv:1804.02767, 2018. [百度学术]
Lyu C, Zhang W, Huang H, et al. RTMDET: An empirical study of designing real-time object detectors [J]. arXiv preprint arXiv:2212.07784, 2022. [百度学术]
Ge Z, Liu S, Wang F, et al. Yolox: Exceeding yolo series in 2021 [J]. arXiv preprint arXiv:2107.08430, 2021. [百度学术]
Xiao C, Yin Q, Ying X, et al. DSFNet: Dynamic and static fusion network for moving object detection in satellite videos [J]. IEEE Geoscience and Remote Sensing Letters, 2021, 19: 1-5. [百度学术]
Yin Q, Hu Q, Liu H, et al. Detecting and tracking small and dense moving objects in satellite videos: A benchmark [J]. IEEE Transactions on Geoscience and Remote Sensing, 2021, 60: 1-18. [百度学术]