网刊加载中。。。

使用Chrome浏览器效果最佳,继续浏览,你可能不会看到最佳的展示效果,

确定继续浏览么?

复制成功,请在其他浏览器进行阅读

基于元学习的少样本红外空中目标分类方法  PDF

  • 陈瑞敏 1,2,3
  • 刘士建 1,3
  • 苗壮 1,2,3
  • 李范鸣 1,3
1. 中国科学院红外探测与成像技术重点实验室,上海 200083; 2. 中国科学院大学,北京 100049; 3. 中国科学院上海技术物理研究所,上海 200083

中图分类号: TP391.4

最近更新:2021-08-25

DOI:10.11972/j.issn.1001-9014.2021.04.015

  • 全文
  • 图表
  • 参考文献
  • 作者
  • 出版信息
EN
目录contents

摘要

针对空中红外目标样本数目不足、细粒度分类精度低等问题,提出一种基于元学习的少样本红外空中目标分类的方法。该方法以元学习为基础,结合多尺度特征融合,在减少计算量的同时有效提取不同分类任务之间的共性,再利用微调策略实现对不同任务的分类。实验证明,此方法在提升mini-ImageNet数据集分类精度的同时可减少约70%的计算量,对仅有少量样本的红外空中目标细粒度分类准确率可达到92.74%。

引言

红外探测具有引导精度高、隐蔽性强、可探测超低空目标、可昼夜工作等优

1,在空中目标探测领域占据不可替代的地位。空中红外目标识别是空中目标探测的重要组成部分,目标识别方法主要分为传统方法和深度学习方法。传统目标识别算法需要足够多的先验知识来提取数据特征,但是不同场合采集的数据分布差异大,整体框架设计难度较大。随着深度卷积神经网2-3的发展,深度学习的方法在目标识别领域取得突破性进展。深度学习依赖于大规模数据集对网络进行训练,在可见光图像目标识别中成果斐然,但是空中红外目标数据获取难度大,适用于固定场合的红外数据量存在不足。如果将可见光的网络模型迁移至空中红外数据集,即使采用数据增强技4,也很难从训练集泛化至测试集,从而产生严重的过拟合问5

针对少样本数据集训练难的问题,以任务为基础的少样本学

6应运而生。少样本学习的核心思想是让模型学会学7,主要分为度量学8-10和元学11-12。度量学习通过将样本映射至嵌入空间,在嵌入空间比较样本的相似度从而进行分类,主要的算法有匹配网10,关系网8等。JIN13等提出基于改进的关系网络对空中红外目标进行分类,虽然网络结构简单且分类精度较高,但是网络采用关系模块用于特征判别,难以比较不同类别目标的细小差别,因此很难实现对细粒度目标的分类。

元学习通过学习相似任务之间的共性部分而获取经

5,利用学习到的经验对新任务进行微调,无需从头学习即可很好的泛化至具有少样本的新任务,目前主要分为基于推断元学1214和基于优化元学611。基于推断的元学习需要构建网络充当元学习器,比如Ravi12提出的长短记忆网络模型元学习,该方法网络结构复杂,网络收敛困难。而Finn11提出的与模型无关的元学习(Model-Agnostic Meta-Learning,MAML)是典型的基于优化元学习。MAML的核心思想是通过大量相似任务训练得到模型的初始化参数,利用初始化参数和很少的训练数据就可以对新任务快速学习。但是该方法在训练和测试阶段需要采用多阶梯度进行更新,模型对新任务的敏感程度不够高,耗费较高的计算成本。

为解决空中红外目标样本不足、细粒度分类等问题,本文提出一种基于元学习的少样本红外空中目标分类的模型MLFC(Meta Learning Few-shot Classification)。该模型对模型无关的元学习(MAML)网络结构进行改进,利用较少的参数融合不同尺度特征,提升模型对新任务的敏感程度,有效降低计算成本,实现对少数样本的空中红外目标细粒度分类。在训练策略上遵循元学习的训练方法,以任务为单位,将易于获取的红外地面目标分类任务作为训练集,将具有细微差别的空中红外目标分类任务作为测试集。先通过训练集得到不同任务之间的内在关系(即元参数),再对元参数进行微调得到适应于新任务的任务特定性参数,最终实现对新任务的分类。

1 基本原理及改进方法

1.1 元学习任务设定

元学习是以任务𝒯为基础进行训

5,所有任务服从相似的分布p(𝒯),取一个任务 𝒯i~p(𝒯),包含数据集𝒟=x(j),y(j)。对于一个C-way K-shot分类问题,每个任务中有C种不同类别,每类取K个样本作为训练(统称支撑集,support set),再从剩余样本中随机取若干样本作为验证(统称查询集,querry set)。

元训练分两个阶段,前向传播和反向传播,网络记为f,需要更新的元参数记为θ。前向传播计算元学习损失:根据该任务支撑集和网络模型fθ计算支撑集损失𝒯i(fθ),基于优化找到适用于该任务的网络参数ϕ;根据查询集和网络模型fϕ,计算查询集损失𝒯i(fϕ) ,元学习损失是所有任务的查询集损失和𝒯i𝒯i(fϕ)。反向传播是更新元学习参数:利用元学习的损失更新得到最优元学习参数θ。元测试则是根据训练得到的元参数模型fθ和任务的支撑集,得到适用于该任务𝒯k的任务特定参数ϕ,利用fϕ对查询集的样本进行分类。元学习的整体结构如图1

图1 元训练和元测试结构

Fig. 1 Architecture of meta train and meta test

1.2 基于优化的元学习

算法的初衷就是学习到一个跨任务可传递的内在表

11(元参数)θ,对于新任务。具体而言,模型表示为一个元参数为θ的函数fθ,用于一个具体任务𝒯i,支撑集的损失为𝒯ifθ,任务特定参数为ϕ,利用支撑集损失的一阶梯度或者更高阶梯度进行更新,比如利用步长为α的一阶梯度:

ϕ=θ-αθ𝒯ifθ . (1)

对于每个任务𝒯i,计算查询集的损失𝒯ifϕ,模型参数的更新是在所有任务基础上,所以元学习优化的目标就是:

minθ𝒯i𝒯ifϕ=𝒯i𝒯ifθ-αθ𝒯ifθ . (2)

采用步长为β 的随机梯度下降(SGD)优化元参数,模型参数优化为:

θθ-βθ𝒯i𝒯ifϕ . (3)

任务𝒯i的数据集由𝒟=x(j),y(j)构成,其中观测值为x(j),目标值为y(j)。采用交叉熵(cross-entropy )作为分类问题的损失函数

𝒯ifϕ=x(j),y(j)y(j)logfϕx(j)+1-y(j)log1-fϕx(j) . (4)

1.3 改进网络结构的元学习

在网络结构f的设计上,MAML仅使用了简单的4层卷积作为特征提取提取网络,每层卷积中通道数为32,提取的特征图如图2所示(每个卷积之后所得特征图均为32维,前2层卷积之后仅展示32维合并之后的特征图,第3、4层卷积展示合并之后以及每个维度的特征图)。由图2可以看出:第3层特征一定程度保留了目标的轮廓特征,而第4层特征则主要体现目标的细节特征。空中红外目标存在很多相近类别,比如歼7、歼8及歼11都同属于喷气式飞机,这些机型的分类属于细粒度分类问

13,需要提取更多目标的细节特征,但是红外图像热源与目标全局紧密相113,因此多尺度特征融合是必不可少的。

图2 MAML模型结构和特征图

Fig. 2 Model architecture and feature maps of MAML

本文网络结构受InceptionNet

15-16和残差网17启发,结合元学习的训练特点,对第3层特征图和第4层特征图进行多尺度特征融合。由等式(3)可知,训练需要梯度迭代,如果将网络直接替换为InceptionNet进行特征融合,必然会使计算参数大幅上升,网络收敛困难。在不增加过多参数的情况下,设计出图3中的三种多尺度特征融合网络。图3(a)直接将浅层特征经过池化后与深层特征相加,网络参数不增加;图3(b) 将浅层特征经过步长为2的1×1卷积(图中省略卷积后的BN和ReLU)后,与深层特征相加,仅增加少量参数;图3(c)同样使用步长为2的1×1卷积,但是将特征特相加变为特征拼接,这样会使得输入至全连接层的参数增多,运算量略高于图3(b)。

图3 不同结构对比 (a)使用池化和相加改进,(b)使用卷积和相加改进,(c)使用卷积和拼接改进

Fig. 3 Comparison with different functions (a) improved with pool & add, (b) improved with conv & add, (c) improved with conv & concat

在实验2.2中,对所设计的三种网络进行比较,图3(a)的方法虽然不增加额外参数,但是经过池化得到的特征与浅层特征很相近,并未将目标的全局特征和局部特征有效融合,网络的表现力存在不足。而1×1的卷积是跨通道聚合,将输入特征图上相同位置的点做全连接处理,通过对浅层特征的处理,可以有效与深层特征融合。图3(c)利用特征拼接,在准确率上与图3(b)的结果相差甚微。但是,在元测试时,图3(b)的方法利用低阶梯度更新任务特定参数,即可达到较高的准确率,具体在实验2.2中证明。图3(b)的方法可以快速适应新任务,增加网络的敏感程度,因此,最终网络使用图3(b)的方法进行特征融合。

整体而言,本文的模型结构MLFC如图4所示,在全连接层之前,利用1×1的卷积层,实现浅层特征与深层特征融合;所有卷积之后,使用批归一化(BN)防止梯度消失,使用ReLU函数作为非线性激活,再连接步长为2的最大池化。

图4 本文MLFC模型结构

Fig. 4 Model architecture of MLFC

2 实验分析与结论

2.1 实验环境和数据来源

训练平台硬件配置为:Intel i7-8700K处理器、NVIDIA GTX1080Ti显卡、DDR4 32G内存;软件环境采用TensorFlow-GPU深度学习框架实现,以及相应版本的CUDNN库加速网络计算。使用两个数据集进行验证实验,分别为mini-ImageNet 数据

9和红外目标数据集(Infra-object dataset),两个数据集部分示例见图5

图5 数据集的部分示例(a)mini-ImageNet数据集,

Fig. 5 Examples of datasets (a)mini-ImageNet dataset,

(b)Infra-object数据集

(b)Infra-object dataset

数据集中图像均调整为84×84,mini-ImageNet 数据集不采用数据增强,Infra-object数据集样本数量不足,使用随机旋转90°的整数倍进行数据增强。训练和测试均以任务为单位,对于C-way K-shot分类问题,在每个元任务中,随机选取C个不同类别,每类K个样本作为支撑集,从C类剩余样本中随机取15个样本作为查询集。训练时,从训练集中随机选取4个元任务为一组,计算其损失和为整体损失,并利用反向传播更新元参数,迭代60 000次。测试时,从测试集中随机选取600个元任务,在元测阶段每个元任务采用k[1,10]不同阶梯度对任务特定参数进行更新,k阶梯度下每个任务其正确分类结果记为Nrightkk阶梯度下准确率计算为Nrightk600×15

2.2 基于mini-ImageNet数据集的小样本学习

mini-ImageNet数据集在匹配网

9中提出,包括64类训练集,12类验证集,24类测试集共100类图像,每类600张图像,总计60 000张可见光图像。本文在此数据集上采用文献[12]中数据集制作方式,进行5-way 1-shot和5-way 5-shot分类,主要进行三组实验:一是验证本文模型结构设计的合理性,二是评估模型对新任务的敏感程度,三是统计模型计算量和准确率。

对于模型结构的验证,将本文1.3节提出的三种特征融合结构(图3(a)池化和相加结构、图3(b)卷积和相加结构、图3(c)卷积和拼接结构)与MAML进行比较。元训练采用更新步长为0.01的5阶梯度对任务特定参数进行更新,反向传播选择学习率为0.01的Adam优化算

18更新元参数。元测试中采用步长为0.01的k[1,10]不同阶梯度对任务特定参数更新,元测试的准确率如图6所示。结果表明:当k=10时,如果都使用相加作为特征聚合的方式,对于不同的特征转换方式,使用卷积比使用池化能更好的提取浅层特征,促进多尺度特征融合,从而提升分类的准确性;当k[5,10]时,如果都使用卷积作为特征转换的方式,对于不同的特征聚合方式,使用拼接与使用相加在准确率上相差甚微,但是在k[1,4]时,使用相加的准确率远高于拼接的结构,相加的结构可对新任务的快速适应,更利于对任务特定参数的更新。因此,后续模型采用图3(b)卷积和相加结构为本文的特征融合方法。

图6 不同结构测试集准确率对比 (a)5-way 1-shot, (b)5-way 5-shot

Fig. 6 Test accuracy with different structures (a)5-way 1-shot, (b)5-way 5-shot

其次是评估模型对新任务的敏感程度。比较MAML和本文提出的MLFC在元训练中使用1阶梯度和5阶梯度时(步长均为0.01),元测试k[1,10]时的准确率,如图7所示。当元训练使用1阶梯度时,本文方法远优于MAML,并与使用5阶梯度结果相差甚微。这是由于模型使用1×1的卷积,充分融合浅层特征与深层特征,有效的提取任务之间的共性特征,从而提升了元参数对新任务的敏感程度。因此,在元训练中MLFC只需要利用低阶的梯度就能适应新任务,不需要多阶迭代。

图7 不同阶元训练梯度MAML和本文方法准确率 (a)5-way 1-shot,(b)5-way 5-shot

Fig. 7 Test accuracy of MAML and ours in different meta-train gradient steps (a)5-way 1-shot, (b)5-way 5-shot

实验还对比了在元训练阶段使用不同阶梯度时的浮点计算量和准确性,如表1所示。准确率为元测试选取k[1,10]阶梯度准确率中的最大值,±表示置信度为95%时准确率的波动情况。表1说明本方法使用在低阶的元训练梯度,可以有效减少计算量,并且在准确率上只有轻微的衰减。当使用1阶梯度时,准确率相比MAML使用5阶梯度略有提升,但是计算量相比原有模型减少了约70%,这表明本文提出的方法在不降低精度的同时有效减少计算量。

表1 mini-ImageNet数据集上不同元训练梯度的准确率和浮点计算量
Table 1 Accuracy and GFLOPs of different meta-train gradient steps on mini-ImageNet dataset
MethodMeta-train gradient steps5-way 1-shot5-way 5-shot
Accuracy /(%)GFLOPsAccuracy /(%)GFLOPs

MLFC

(ours)

1 48.77±1.77 29.85 63.89±0.92 49.78
2 49.63±1.89 50.88 63.40±0.91 88.54
3 49.27±1.83 71.91 63.92±0.90 127.31
4 49.34±1.79 92.95 64.04±0.91 166.07
5 50.13±1.86 113.98 64.14±0.90 204.83
MAML[11] 1 46.56+1.85 29.82 58.15+0.95 49.73
5 48.70±1.84 113.87 63.11±0.92 204.63

2.3 基于红外数据集的空中目标识别

红外目标数据集包含25类地面目标和8类空中目标,每类包含100~200个16位灰度图像。25类地面目标包含行人、动物、船舶等;8类空中目标包括教练机、民航、歼7、歼8、歼11、直8、直9、直15,其中歼7、歼8、歼11均属于喷气式飞机,直8、直9、直15均属于直升机,空中目标分类的粒度高于地面目标。

为了证明模型可以有效的解决细粒度分类问题,本文将地面目标作为训练集,空中目标作为测试集,空中目标总共有8类,因此进行8-way 1-shot和8-way 5-shot两种分类,验证模型在真实场景下对少量红外空中目标的学习能力。由于红外数据集类别和样本数远不及可见光数据集,而可见光数据集和红外数据集域间分布差异

13,直接将可见光数据集加入训练集是不可行的,因此采用mini-ImageNet对模型预训练。实验中元训练均采用1阶梯度对任务特定参数进行更新,更新步长为0.01,反向传播选择学习率为0.001的Adam优化算18对模型参数进行更新,元测试选取10阶梯度准确率的最大值,对比MAML和本文模型MLFC在测试集上的准确率,实验结果如表2所示。

表2 Infra-object数据集上不同模型的准确率
Table 2 Accuracy of different models on Infra-object dataset (%)
MethodPretraining8-way 1-shot8-way 5-shot
MAML No 74.62±0.99 90.25±0.38
MLFC (ours) No 78.58±0.97 91.12±0.37
MAML Yes 76.31±1.02 90.72±0.36
MLFC (ours) Yes 81.27±0.91 92.74±0.35

比较MAML和本文方法MLFC,在8-way 1-shot和8-way 5-shot分类中MLFC准确率均高于MAML,本文的模型有效提取不同任务之间内在关系,模型对新任务敏感程度提升,所以可以有效解决新任务间细粒度分类问题。采用预训练可以提升分类的准确性,这是由于可见光图像的纹理细节更加丰富,而红外图像的背景相对简单,纹理特征相对较少,用可见光图像预训练可以为网络提供一个良好的初始化参数,从而提升识别的准确率。

不仅如此,实验还将本文的结果与现有空中红外目标分类方法(文献[

13])进行比较。两种方法均在mini-ImageNet上预训练,以地面红外目标作为训练集,以空中红外目标作为测试集。两方法的结果比较见表3,对于8-way 1-shot和8-way 5-shot两种分类,本文模型的准确率均高于文献[13]。

表3 Infra-object数据集上模型的准确率对比
Table 3 Accuracy of different models on Infra-object dataset (%)
Method8-way 1-shot8-way 5-shot
Improved Relation Network[13] 78.47±0.94 89.82±1.02
MLFC (ours) 81.27±0.91 92.74±0.35

3 结论

本文提出一种基于元学习的少样本红外空中目标分类的方法,该方法有效地解决空中红外目标样本数目不足的问题,实现对空中红外目标的细粒度分类。该方法改进模型无关的元学习的网络结构,利用较少的参数实现不同尺度特征的融合,一方面有效提取不同任务之间的内在联系,提升模型对新任务的敏感程度,从而提升分类的准确性;另一方面利用低阶梯度更新任务特定参数,在减小计算成本的同时保证分类的准确性。该方法在空中目标侦测中具有广阔的运用前景,但是方法还可以在以下几个方面改善提升:

(1)二次优化问题。基于优化的元学习在计算任务特定参数时需要求解一次梯度,反向传播更新元参数时需要再次求解梯度,所以训练时需要进行二次优化(二次梯度求解)。二次优化问题会增加网络的不稳定性,学习率的微小变化会导致网络的巨大变化。未来研究中,可以利用动态优化,灵活的选择学习率,每次迭代中仅优化部分参数来解决二次优化带来的问题。

(2)复杂元任务的学习。本文只涉及8类红外空中目标的分类问题,任务设定只涉及面目标分类。但是在目标探测领域不仅涉及分类,还涉及目标定位、小目标追踪等一系列复杂问题。因此,将元学习拓展至目标探测领域中复杂的任务是未来研究中的一个重要挑战。

References

1

XIE J RLI F MWEI Het al. Enhanced of single shot multibox detector for aerial infrared target detection[J]. Acta Optica Sinica谢江荣, 李范鸣, 卫红, 等。 用于空中红外目标检测的增强单发多框检测器方法。 光学学报 2019396):0615001. 10.3788/aos201939.0615001 [百度学术

2

Szegedy CLiu WJia Yet al. Going deeper with convolutions[C].The IEEE Conference on Computer Vision and Pattern Recognition (CVPR)7-12 June 2015. BostonMAUSAIEEE20151063-6919. 10.1109/cvpr.2015.7298594 [百度学术

3

Simonyan KZisserman A. Very deep convolutional networks for large-scale image recognition[C]. Conference Track Proceedings(International Conference on Learning RepresentationsICLR)7-9, May, 2015, California, USA. 10.33278/sae-2014.vol.2 [百度学术

S. l. : s. n. 2014. 10.33278/sae-2014.vol.2 [百度学术

4

Ratner A JEhrenberg H RHussain Zet al. Learning to compose domain-specific transformations for data augmentation [J]. Advances in Neural Information Processing Systems2017303239-3249. [百度学术

5

Wang YYao QKwok J Tet al. Generalizing from a Few Examples [J]. ACM Computing Surveys2020533): 1-34. 10.1145/3386252 [百度学术

6

Hochreiter SYounger A SConwell P R. Learning to learn using gradient descent[C]. International Conference on Artificial Neural Networks21-25 August. ViennaAustriaSpringerBerlin, Heidelberg: 87-94. 10.1109/ijcnn.2001.938471 [百度学术

7

Lake B MUllman T DTenenbaum J Bet al. Building machines that learn and think like people [J]. Behavioral & Brain Sciences201740e253): 1. Doi:10.1017/S0140525X16001837 [百度学术

8

Sung FYang YZhang Let al. Learning to compare: relation network for few-shot learning[C]. the IEEE Conference on Computer Vision and Pattern Recognition (CVPR) June 18-222017. Salt Lake, UTUSAIEEE20181199-1208. 10.1109/cvpr.2018.00131 [百度学术

9

Vinyals OBlundell CLillicrap Tet al. Matching networks for one shot learning[C]. Neural Information Processing Systems December 5-102016. New York, USA: Curran Associates20163630-3638 [百度学术

10

Snell JSwersky KZemel R S. Prototypical networks for few-shot learning[C]. Neural Information Processing Systems December 4-92017. New York, USA: Curran Associates20174077-4087 [百度学术

11

Finn CAbbeel PLevine S. Model-agnostic meta-learning for fast adaptation of deep networks[C]. Processing of the 34th International Conference on Machine LearningAugust 6-11. 2017.SydneyNSWAustralia: PMLR 70, 2017:1126-1135. [百度学术

12

Ravi SArochellel H. Optimization as a model for few-shot learning[C]. International Conference on Learning RepresentationApril 24-262017. Toulon, France. 10.1590/1414-431X20176172 [百度学术

S. l. : s. n. 2017. 10.1590/1414-431X20176172 [百度学术

13

JIN LuLIU Shi-JianWANG Xiaoet al. Infrared aircraft classification method with small samples based on improved relation network[J]. Acta Optica Sinica金璐, 刘士建, 王霄, 等。 基于改进关系网络的小样本红外空中目标分类方法。光学学报, 2020408):0811005. 10.3788/aos202040.0811005 [百度学术

14

Santoro ABartunov SBotvinick Met al. One-shot learning with memory-augmented neural networks [EB/OL].(2016-5-19) [2020-7-23https://arxiv.org/abs/1605.06065v1. 10.1101/2020.06.17.156513 [百度学术

15

Szegedy CLiu WJia Yet al. Going deeper with convolutions[C].The IEEE Conference on Computer Vision and Pattern Recognition(CVPR)June 7-12,2015BostonMAUSA New YorkIEEE20151-9. 10.1109/cvpr.2015.7298594 [百度学术

16

Szegedy CVanhoucke VIoffe Set al. Rethinking the inception architecture for computer vision [EB/OL] (2015-12-11) [2020-7-24https://arxiv.org/abs/1512.00567. 10.1109/cvpr.2016.308 [百度学术

17

Hei KZhang XRen SSun J. Deep residual learning for image recognition[C]. the IEEE Conference on Computer Vision and Pattern Recognition (CVPR)June 26 - July 1 2016. Las VegasNVUSAIEEE2016770-778. 10.1109/cvpr.2016.90 [百度学术

18

Kingma D PBA J. Adam: A method for stochastic optimization [EB/OL]. (2017-01-30) [2020-7-24https://arxiv.org/abs/1412.6980. [百度学术