摘要
在军事空中目标识别领域,由于样本数量缺失,现有人工智能算法无法完成准确识别。文章利用已有足量辅助域图像辅助少样本应用域进行跨域目标识别,解决因标签缺失与样本稀疏导致的识别模型泛化能力不强及性能不佳问题。文章提出一种基于深层-浅层双流学习图模型(D-SLGM)的跨域目标识别算法。首先,提出一种深层-浅层双流特征提取算法,解决无监督少样本条件下特征表示困难的问题;同时,提出一种基于图模型的特征融合算法,实现特征间高精度融合;基于融合后的特征训练识别模型,提升算法的泛化能力。使用自建空中目标数据集,设计三种应用场景。实验结果表明,D-SLGM平均识别准确率均值达到78.2%,优于对比方法,在实际空中目标识别应用中具有较大潜力。
随着航空航天科技的快速发展,各国家新型目标的大量涌现增加了目标识别、跟踪的难
使用特征分布适配法,通过缩小两种应用场景数据分布差异,使两种应用领域的数据分布更加近似,能够提高识别算法的泛化性。常见的特征分布适配法主要分为基于度量方
本文建立了一种基于深层-浅层双流学习图模型(Deep-Shallow Learning Graph Model,D-SLGM)的跨域目标识别算法,结合大量源域数据(理想仿真图像)和少量目标域数据(应用场景图像),建立跨域数据分布模型,高效挖掘和提取真实目标的有效特征,构建特征非线性结构化模型,实现空间目标的准确识别。提高当前目标识别算法在少样本真实场景下的泛化能力,显著提升人工智能算法在实际应用中的识别效果。
空中目标识别模型包括特征提取模块、特征融合模块以及目标识别模块,如

图1 空中目标识别模型结构
Fig. 1 The framework of aerial object recognition model
特征提取模块可以利用多种传统机器学习算法提取输入图像的浅层特征,同时利用深度神经网络学习深层特征。特征融合模块以图网络为基本结构,将提取到的浅层与深层特征进行高精度融合,利用图网络的多节点结构,将深层与浅层特征经变换得到32个具有抽象含义的特征,融合后的每个特征都以更抽象更概括的形式包含了目标的深层与浅层信息,实现对空中目标嵌入信息的多角度描述。在获取融合特征后,本方法通过目标识别模块,利用被
, | (1) |
式中,x为输入向量,C代表类别数。
深度神经网络通过非线性映射能够挖掘图像更深、更抽象的特征,但是简单地学习样本和标签之间映射关系受到样本稀疏条件限制。传统机器学习算法可以学习到对域迁移具有鲁棒性的固有特征,减少对训练样本数量的依赖,提高跨域学习能力。通过一定规则将这些特征组合起来,能够有效地建立少样本特征空间 。
本算法通过构建深度网络模型来获取非线性特征映射,并对域不变特征进行挖掘与提取。利用生成对抗技术,挖掘最有利于描述两个域图像共性的深层特征,具体流程如

图2 域不变深层特征提取模块框架
Fig. 2 Framework of domain invariant deep feature extraction module
通过深层特征提取网络,得到输入图像的深层特征。为了提高特征的类判别性,在深层特征提取框架中,添加一个辅助分类器Fc,参数以源域图像特征fs及标签信息ys作为输入,通过如
. | (2) |
为了减少两个域的特征分布差异,使用Wasserstein距
, | (3) |
其中,fw是Wasserstein距离函数,fs和ft分别表示源域相关特征和目标域相关特征,ys是源域真实标签,是由辅助分类器Fc得到的伪标签,ys和的具体形式为1×4的独热码。λwd是平衡边缘分布损失Lwdm与条件分布损失Lwdc的参数。‖fw‖≤1是Lipschitz约束,引入如
. | (4) |
通过求解如
, | (5) |
其中,θf和θwd分别是特征提取网络Ff和Wasserstein距离函数fw的参数,λgrad 是梯度惩罚因子。
为了进一步拉近不同域的数据分布,将两个域的深层特征分别输入到域判别网络Fd中,判断输入特征来自于哪个数据域,通过对抗学习机制,进一步降低深层特征提取网络输出特征的域分布差异,直到域判别网络无法区分输入特征来自于哪个域,整个对抗学习过程结束,使用梯度反转层(Gradient Reversal Layer,GRL)提升判别网络的效率。域判别损失函数如
, | (6) |
其中,θf和θadv分别是特征提取网络Ff和域判别网络Fd的参数,GRL(·) 是梯度反转函数。
源域和目标域图像得到的深层特征分别为,,为了更清晰、直观地阐述提取到的深层特征,以

图3 源域与目标域深层特征直方图,(a)源域图像样例,(b)源域深层特征直方图,(c)目标域图像样例,(d)目标域深层特征直方图
Fig. 3 Histograms of the deep features in source and target domains,(a)the sample in the source domain,(b)the histogram of the deep features in the source domain,(c)the sample in the target domain,(d)the histogram of the deep features in the target domain
在少样本条件下,深层特征的学习面临过拟合问题,限制了特征提取模块的通用性,利用传统机器学习方法提取浅层特征,降低特征空间容量,可以提高学习模型的拟合能力,实现无监督少样本条件下红外空中目标样本特征的有效提取,本文研究的浅层特征包含SIFT、LBP、Harris、HOG和灰度直方图共5种特征。
尺度不变特征变换(Scale Invariant Feature Transform, SIFT)是一种局部特征描述子,通过搭建如
, | (7) |
式中, 为高斯函数,I(x, y)为原始图像,⊗代表卷积操作,σ是标准差,通过调整σ值获取多尺度图像。计算差分金字塔的极值,对关键点进行定位,基于关键点局部梯度方向为关键点赋方向。在描述关键点时,以关键点为中心,先旋转到特征点主方向,保障了特征的旋转不变性。围绕关键点构建4×4个子区域,每个子区域构建方向梯度,每隔45°取一个划分,共划分8部分,最终的特征向量为128维。
使用词袋算法(Bag of Feature, BoF)进一步挖掘SIFT关键点之间存在的共性与特性。对图像关键点进行聚类,聚类中心代表一组关键点的共性,根据聚类中心得到图像的关键点直方图。
(2)LBP特征
局部二值模式(Local Binary Pattern,LBP)特征具有灰度不变性和旋转不变性,通过
, | (8) |
式中,i是所求像素点的像素值,in是像素周边八个相邻像素的像素值,I(·)表示指示函数,当in>i时取1,当in<i时取0。八个相邻像素依次作为起点,得到八个LBP值,取其中最小值作为当前像素的LBP值。
Harris特征是一种角点检测特征,具有旋转不变性,利用
, | (9) |
式中,⊗代表卷积操作,Ix和Iy分别为当前像素点的水平方向与竖直方向的导数,w(x, y)表示窗口函数,形式通常为常数或者高斯函数。利用
, | (10) |
式中,Det(M)和Trace(M)分别用于求取M的行列式与迹,通常k∈[0.04, 0.06]。排除R值小于设定阈值的像素,并采用局部非极大值抑制算法确定最终角点。
(4)HOG特征
方向梯度直方图(Histogram of Oriented Gradient,HOG)特征具有几何不变性,通过统计局部区域的梯度方向直方图来构成特征,首先使用Sobel算子计算每个像素的水平梯度gx和垂直梯度gy,通过
. | (11) |
将图像划分为元胞,将梯度方向平均分成9个方向,统计元胞内像素梯度直方图。若干元胞组成一个特征块,特征块内将所有元胞的特征串联起来,块内归一化梯度直方图,得到这个块的HOG特征描述,将图像中所有块的HOG特征串联起来得到这张图像的HOG特征。
(5)灰度直方图特征
灰度直方图可以用来描述不同灰度值的像素在图像中所占比例。该特征具有尺度、平移、旋转不变性,其具体表达式如
, | (12) |
式中,Hp表示灰度直方图特征,hk=nk/N,nk表示灰度值为k的像素在图像中所占的个数,N表示像素总数。
本文提取到的SIFT、HOG和灰度直方图特征为1×16的特征向量,LBP与Harris特征为二维特征矩阵,其维度与输入图像维度相同。进一步地,本文采用神经网络将LBP与Harris特征降维至1×16的特征向量,使其维度与其他浅层特征维度一致,以便更好地实现后续特征融合。为了更直观地展示所提取到的浅层特征,本节以一个样本图像作为样例,将提取的5个浅层特征以柱状图的形式在

图4 浅层特征柱状图,(a)样例,(b)SIFT,(c)LBP,(d)Harris,(e)HOG,(f)灰度直方图
Fig.4 Bar charts of shallow features,(a)the sample,(b)SIFT,(c)LBP,(d)Harris,(e)HOG,(f)grayscale histogram
深层与浅层特征从不同角度描述目标,为保障信息的完整性,融合两种特征有利于后续的识别任务。本文提出一种基于图网络的特征融合算法,利用特征本身信息及其之间的关系,融合深层特征的深层语义表征与浅层特征在尺度、旋转等方面的不变性表征,获得更加鲁棒的嵌入表示。特征融合网络结构图如

图5 基于GCN的特征融合模块框架
Fig.5 Framework of GCN-based feature fusion module
本文使用图卷积网络(Graph Convolutional Network,GCN)挖掘特征之间的潜在关系。深度GCN的拓扑是一个标准的前向神经无向图网络,GCN的输出如
, | (13) |
其中,σ表示非线性激活函数,
, | (14) |
其中,Ā=A+I,I是单位阵,Dii=∑jĀij。Ā的特征值被限制在[0,1]的范围内,因此计算具有稳定性。
使用交叉熵损失函数Lg来评估分类性能,如
. | (15) |
在每次迭代训练过程中,首先通过
融合后的特征为,该特征是图卷积网络32个节点的输出(每个节点输出69维特征向量)融合得到的,为了更直观地阐述,以

图6 源域与目标域融合后特征直方图,(a)源域图像样例,(b)源域融合特征直方图,(c)目标域图像样例,(d)目标域融合特征直方图
Fig.6 Histograms of the fused features in source and target domains,(a)the sample in source domain,(b)the histogram of the fused features in source domain,(c)the sample in target domain,(d)the histogram of the fused features in target domain
考虑到军事应用环境的复杂性及军事目标的保密性,收集覆盖全部可能环境下的红外空中目标图像及各种新型号目标光电特性数据非常困难。基于已有的典型红外目标仿真成像系统,设定空中运动位姿状态、观测背景、探测器响应模型等条件,构建不同的典型空中目标探测场景,用于后续验证本文方法在训练集与测试集不同源的情况下的有效性。上述仿真成像系统采用的仿真计算机的 CPU 为 Intel i7-9700 3.6 GHz,GPU 为 Nvidia RTX2060,内存容量为 32 GB。软件采用C/C++语言进行开发,对应的集成开发环境为Qt,数据库系统采用关系型数据库管理系统MySQL。本文所提算法D-SLGM采用的开发语言为Python,使用的深度学习开发框架为TensorFlow。
本文实验数据源包含四个子集:1)理想红外仿真图像子集(S),包含四类目标(A,B,C,D),模拟目标在不同观测视角下的状态,主要体现空中目标的几何形状与辐射强度,以该子集作为源域;2)模糊目标红外仿真图像子集(T1),增强调制函数对成像系统的影响,模拟光学成像链路影响较大的情况,仿真生成的图像较为模糊;3)小目标红外仿真图像子集(T2),模拟观测距离较远情况下的空中目标在不同观测视角下的状态,增加云层背景,并且使用系统调制函数对系统的空间调制效应加以模拟;4)云层目标红外仿真图像子集(T3),在T2基础上增大量化系数,使得云层更加明显。典型空中目标部分图像样本示例如

图7 典型空中目标图像数据集部分样本示例
Fig.7 Samples of typical aerial object images
选择五种典型算法作为对比实验:卷积神经网络(CNN)、深度适配网络(DAN
设计了三个跨域识别任务,分别是:S→T1,S→T2,S→T3。实验中,对所有输入图像进行统一预处理,缩放至227×227尺寸,并减去像素均值。本文使用平均识别准确率(Average Accuracy,AAc)作为算法单个跨域识别任务的评价指标,如
, | (16) |
其中,N为样本总数,为该跨域识别任务下识别结果正确的样本数。本文使用平均识别准确率均值(mean Average Accuracy,mAAc)衡量算法在多个跨域识别任务的整体性能,如
, | (17) |
其中,n为跨域识别任务总数。
方法 | 跨域识别任务 | mAAc | ||
---|---|---|---|---|
S→T1 | S→T2 | S→T3 | ||
CNN | 62.8 | 56.9 | 37.2 | 52.3 |
DAN | 96.7 | 74.1 | 39.1 | 70.0 |
JAN | 97.9 | 75.8 | 40.1 | 71.3 |
VREx | 97.7 | 77.4 | 44.8 | 73.3 |
CoVi | 97.2 | 87.3 | 44.1 | 76.2 |
D-SLGM | 99.3 | 88.9 | 46.5 | 78.2 |
本节使用消融实验方法对本算法深层特征提取模块、浅层特征提取模块与基于图网络的特征融合模块的有效性进行分析。构建三种对比网络模型,即:SLGM模型,移除深层特征提取模块;DLGM模型,移除浅层特征提取模块,保留域适配算法与图卷积网络;D-SLM模型,移除基于图网络的融合模块,将深层与浅层特征串联输出。通过比较三种对比网络模型与完整D-SLGM模型的识别性能,验证各模块的有效性,结果如
方法 | 跨域识别任务 | mAAc | ||
---|---|---|---|---|
S→T1 | S→T2 | S→T3 | ||
SLGM | 58.0 | 66.8 | 30.7 | 51.8 |
DLGM | 98.1 | 82.6 | 41.3 | 74.0 |
D-SLM | 98.9 | 85.6 | 40.9 | 75.1 |
D-SLGM | 99.3 | 88.9 | 46.5 | 78.2 |
本节还对D-SLGM模型的参数敏感性进行了分析,重点研究了联合分布适配损失函数Lwd中的超参数λwd,设置λwd的取值为{0.0, 0.1, 0.3, 0.5, 0.7, 0.9, 1.0},记录三个跨域任务在每个取值下的识别准确率,其结果如

图8 超参数λwd敏感性分析的实验结果
Fig.8 Experimental results on the sensitivity of hgperparameter λwd
可以看出,初始阶段,准确率随着λwd的增大逐渐增大,当λwd>0.5时,准确率随着λwd的增大逐渐降低。通过实验选择λwd=0.5,此时准确率达到峰值。D-SLGM模型在较大的参数变化范围内都能够取得较高的准确率,可见D-SLGM模型对参数变化具有一定的鲁棒性。
本节利用t-SNE可视化方法,对D-SLGM所提取并融合后的特征进行直观表示。实验以S→T1任务为实验对象,对仅使用CNN基线算法提取到的特征分布,以及本文方法提取到的深层特征和经过GCN融合后的特征分布进行降维可视化处理,其结果如

(a)

(b)

(c)
图9 D-SLGM模型特征可视化结果,(a) CNN基线算法提取特征分布可视化结果,(b)D-SLGM模型提取到的域不变深层特征分布可视化结果,(c)D-SLGM模型最终特征分布可视化结果
Fig.9 Ressults of feature visualization for D-SLGM algorithm,(a) visualization of the deep features extracted by baseline CNN,(b)visualization of the domain invariant deep features extracted by D-SLGM,(c)visualization of the final features extracted by D-SLGM
本文研究建立了一种新的无监督红外空中目标识别模型,提出一种基于深层-浅层双流学习图模型(Deep-Shallow Learning Graph Model,D-SLGM)的无监督少样本目标识别算法,首先研究了样本稀疏条件下图像特征的表征与学习方法,设计了基于深层-浅层双流特征提取方法,使用人为定义的浅层特征辅助深层特征,极大地降低了识别任务对样本数量的需求。在此基础上,利用深度图卷积网络挖掘特征之间的关系信息,实现深层特征与浅层特征之间的高精度融合,能够提高识别系统在应用场景的识别精度。最后,构建了多场景空中目标图像数据集,验证本文算法在不同场景下的性能。实验结果表明,本文所提出的空中目标识别算法在多场景空中目标仿真数据集上的平均识别准确率均值达到78.2%,证明了D-SLGM模型在跨域空中目标识别任务上的有效性。
References
LI Kai-Yong, HE You-Jin, ZHANG Peng, et al. A method for ground target recognition through IR imaging[J]. Electronics Optics& Control (李凯永,何友金,张鹏, 等.地面红外目标图像识别方法研究. 电光与控制), 2009, 16(03): 71-74. [百度学术]
Sun S G, Park H W. Automatic target recognition using boundary partitioning and invariant features in forward-looking infrared images[J]. Optical Engineering, 2003, 42(2): 524-533. [百度学术]
Pan S J, Tsang I W, Kwok J T, et al. Domain adaptation via transfer component analysis[J]. IEEE Transactions on Neural Networks, 2010, 22(2): 199-210. [百度学术]
Tzeng E, Hoffman J, Zhang N, et al. Deep domain confusion: maximizing for domain invariance[J]. arXiv preprint arXiv,1412.3474, 2014. [百度学术]
Long M, Cao Y, Cao Z, et al. Learning transferable features with deep adaptation networks: proceedings of the 32nd International Conference on Machine Learning, 2015[C]. Lille: IMLS, 2015: 97-105. [百度学术]
Ganin Y, Ustinova E, Ajakan H, et al. Domain adversarial training of neural networks[J]. The Journal of Machine Learning Research, 2016, 17(1): 1-35. [百度学术]
Zhou Q, Zhou W, Wang S, et al. Multiple adversarial networks for unsupervised domain adaptation[J]. Knowledge-Based Systems, 2021, 212: 106606. [百度学术]
Liu Z, Wang S, Zheng L, et al. Robust imagegraph: rank-level feature fusion for image search[J]. IEEE Transactions on Image Processing, 2017, 26(7): 3128-3141. [百度学术]
HU Yang-Guang, XIAO Ming-Qing, ZHANG Kai, et al. Infrared aerial target tracking based on fusion of traditional feature and deep feature[J]. Systems Engineering and Electronics (胡阳光, 肖明清, 张凯,等. 传统特征和深度特征融合的红外空中目标跟踪. 系统工程与电子技术), 2019, 41(12): 2675-2683. [百度学术]
CHEN Yu, WEN Xin-Ling, LIU Zhao-Yu, et al. Research of multi-missile classification algorithm based on sparse auto-encoder visual feature fusion[J]. Infrared and Laser Engineering (陈宇, 温欣玲, 刘兆瑜, 等. 稀疏自动编码器视觉特征融合的多弹分类算法研究. 红外与激光工程), 2018, 47(08): 386-393. [百度学术]
Yang W, Greg M. A discriminative latent model of object classes and attributes: 11th European Conference on Computer Vision, 2010[C]. Heraklion: Springer, 2010: 155-168. [百度学术]
GONG Ping, CHENG Yu-Hu, WANG Xue-Song. Zero-shot classification based on attribute correlation graph regularized feature selection[J]. Journal of China University of Mining & Technology (巩萍, 程玉虎, 王雪松. 基于属性关系图正则化特征选择的零样本分类. 中国矿业大学学报), 2015, 44(6): 1097-1104. [百度学术]
Wang X, Ye Y, Gupta A. Zero-shot recognition via semantic embeddings and knowledge graphs: proceedings of the IEEE conference on computer vision and pattern recognition, 2018[C]. Salt Lake City: IEEE, 2018: 6857-6866. [百度学术]
Gulrajani I, Ahmed F, Arjovsky M, et al. Improved training of wasserstein GANs: advances in neural information processing systems, 2017[C]. Long Beach: Neural information processing systems foundation, 2017: 5768-5778. [百度学术]
Shen J, Qu Y, Zhang W, et al. Wasserstein distance guided representation learning for domain adaptation: proceedings of the AAAI Conference on Artificial Intelligence, 2018[C]. New Orleans: AAAI, 2018: 4058-4065. [百度学术]
Long M, Wang J, Jordan M I. Deep transfer learning with joint adaptation networks: proceedings of the International Conference on Machine Learning, 2017[C]. Sydney: IMLS, 2017: 3470-3479. [百度学术]
Krueger D, Caballero E, Jacobsen J H, et al. Out-of-distribution generalization via risk extrapolation[J]. arXiv preprint arXiv, 2003.00688, 2021. [百度学术]
Na J, Han D, Chang H J, et al. Contrastive vicinal space for unsupervised domain adaptation: 17th European Conference on Computer Vision, 2022[C]. Tel Aviv: Springer Science and Business Media Deutschland GmbH, 2022: 92-110. [百度学术]