摘要
遥感图像场景分类旨在根据遥感图像的内容为其自动赋予相应的语义标签,已成为当前遥感图像处理领域中的研究热点。基于卷积神经网络(Convolutional Neural Networks, CNNs)的方法和基于自注意力机制的方法则是当前遥感图像场景分类中的两大主流方法。然而,前者不擅长学习长程上下文关系;后者对局部信息的学习能力有限,且具有较大的参数量和运算量。针对上述问题,提议一种基于知识蒸馏的轻量化遥感图像场景分类方法。该方法分别以Swin Transformer和小型CNN网络作为教师模型和学生模型,通过知识蒸馏的方式融合两种模型的优势;更进一步,提出一种新颖的知识蒸馏损失函数,使学生模型能够同时关注遥感图像类间和类内的潜在信息。在两个大规模数据集上的实验结果表明,与现有其它方法相比,所提出方法不仅有高的分类精度,还具有显著降低的参数量和运算量。
随着遥感成像设备和技术的进步,高分辨率遥感图像的获取变得更加容易,为遥感数据的各类应用提供了可靠的数据支持,如环境规划、城市规划、自然灾害监测
为了解决这一问题,大量的工作致力于为高分辨率遥感图像提取具有辨别性的特征。早期的工作主要使用了手工设计的特征,例如,尺度不变特征变换(Scale-Invariant Feature Transform, SIFT
CNN模型善于捕捉局部信息,并且随着模型层数的增加,网络感受野也会逐渐扩大,使其在遥感图像场景分类任务中取得了良好的结果。基于CNN的方法主要以预训练好的CNN模型作为特征提取器,如VGGNe
针对上述问题,以视觉Transformer(Vision Transformer, ViT)为代表的基于自注意力机制的方法能够充分学习图像子块序列中各子块之间的关系,进一步提取遥感图像中的长程信息,开始被广泛应用于遥感图像场景分类任
在实际应用中,若能够充分融合CNN和Transformer的优势,使得模型既可充分提取遥感图像中的局部信息,又可充分学习到场景中各个地物间的长程关系,则可显著增强模型对遥感图像的理解;同时,若能进一步降低模型的复杂度,则可增强模型的易用性,使其具备更广泛的应用场景。基于此,我们考虑采用知识蒸馏的策略来实现信息迁移和模型压缩,以融合上述两种模型的优势,并降低模型的计算复杂度。
在目前的知识蒸馏中,通常使用大型CNN网络作为教师模型来对小型CNN网络进行蒸
为解决上述问题,本文提出一种基于知识蒸馏的轻量化遥感图像场景分类方法(Knowledge-Distilled Lightweight Networks, KDLNet),在提升模型易用性的同时,实现高精度的遥感图像场景分类。结合高分辨率遥感图像的特点,本文以Swin Transforme
本文的主要贡献可简要总结如下:
1) 以Transformer为教师模型,通过知识蒸馏将潜在知识传递给(小型CNN网络的)学生模型,使得学生模型能兼具两类模型的优势,且大大降低了复杂度;
2) 提出一种新颖的知识蒸馏损失函数,能使学生模型同时关注各类别的类间差异和类内差异,进一步提升了蒸馏效果。
本节通过介绍知识蒸馏的主要思路,进一步阐述其在信息迁移和模型压缩上的机制。知识蒸馏本质上属于迁移学习的范畴。传统知识蒸馏的主要思路是通过最小化教师模型和学生模型的预测分布间的差异,将知识从预先训练过的教师模型转移到学生模型
, | (1) |
其中,和分别表示教师模型和学生模型输出的logits信息,和分别表示经过软化的教师模型和学生模型的分类预测信息。

图1 知识蒸馏流程图
Fig. 1 The flowchart of knowledge distillation
通常,知识蒸馏损失函数为:
, | (2) |
其中,表示Kullback-Leibler散度,用以衡量两个分布间的差异。
学生模型通常由
, | (3) |
在上式中,是平衡因子,通常是学生模型预测值和真实标签之间的交叉熵(Cross Entropy)损失:
, | (4) |
其中,是真实标签,表示温度值T=1时学生模型的分类预测。
本文旨在设计一种基于知识蒸馏的轻量化遥感图像场景分类方法,其整体流程如

图2 所提出KDLNet的框架
Fig. 2 The framework of the proposed KDLNet
由于Transformer模型能通过多头自注意力机制学习序列间的长程依赖关系,在图像分类任务中展示出了较为突出的性能,其多种Transformer模型都曾被应用于遥感图像场景分类任务。相较于ViT,Swin Transformer因其特有的分层特征图和转移窗口注意力(Shifted Window Attention)机制而具有更强的多尺度特征学习和整体建模能力,在分类任务上取得了更好的性能。本文以Swin Transformer作为教师模型,将知识传递给学生模型。
作为使用最为广泛的深度学习模型,CNN模型通常由卷积层、池化层和全连接层等组成,通过逐层堆叠的形式,逐步提取出图像中抽象的高阶语义特征,且CNN模型具有良好的局部特征学习能力。将Transformer模型所具有的长程关系学习能力传递给CNN模型,能够使得CNN同时关注遥感图像中的局部信息和全局信息,从而可使模型更全面地认知和理解遥感图像。本文以ResNet-1
对于每个模型的最后一个特征图,应用全局平均池化(Global Average Pooling, GAP)和全连接层来获取模型输出的logits信息。GAP能够将特征图转换为特征向量,
, | (5) |
其中,W, H和C分别表示输出特征图的宽度、高度和通道数。
相较于自然图像,遥感图像通常具有类内差异大而类间差异小的特点,这对遥感图像的场景分类带来了较大的挑战。我们考虑,在每个遥感图像场景类别中,多个实例预测分数的分布也是信息丰富且有用的,这些分数能够反映多个示例与某个类别的相似度。例如,一个批次输入了3张类别分别为“公园”、“学校”和“飞机场”的遥感图像,它们在“学校”类别上有3个预测分数,分别记为。那么,“学校”图片对“学校”类别的得分最高,而“飞机场”对该类别的得分最低,因为它与“学校”之间的相似地物最少。这种“”的关系也可以传递到学生身上。此外,即使是同一类别的图像,教师模型对它们的预测得分也可能是不同的,这反映了教师模型的先验知识对图像可靠性的判断,即哪一张图片更可能属于该类别。因此,我们认为,在学习类间关系的同时,学习类内关系能使学生模型更好地关注到遥感图像的细致差异。然而,如
为使学生同时学习类间关系和类内关系,我们首先将
, | (6) |
该目标使学生逼近教师的输出在每一行上的分布,对应于类间关系。
我们在
, | (7) |
从而,蒸馏损失函数可由类间蒸馏损失和类内蒸馏损失两部分构成:
, | (8) |
此外,由于蒸馏损失与分类损失所关注的信息并不一致,同时优化分类损失与蒸馏损失会限制学生模型在遥感图像场景分类任务上的性能。具体而言,蒸馏损失会使学生更加关注于教师模型所传递的潜在信息,如类间类内差异,对应着“软标签”。而分类损失会迫使学生向真实标签逼近,真实标签通常是一个独热(One-hot)码,信息单一,与设立软标签的目标相悖。相对于纯标签的学习,遥感图像场景分类任务更期望学生模型能够学习遥感图像中复杂的潜在信息,这有助于帮助学生模型更全面充分地理解遥感图像。因此,我们弃用
最终,所提出模型的整体损失函数如下所示:
, | (9) |
为将教师模型中的潜在信息迁移到学生模型中,选用离线蒸馏的策略来对学生模型进行优化。具体而言,首先,采用交叉熵损失来对教师模型进行优化;教师模型达到收敛后,将其用于对学生模型的蒸馏。蒸馏过程中,教师模型只进行推理而不更新参数,学生模型在每个训练周期都从教师模型获取固定不变的潜在信息。这种处理方式的好处是,在蒸馏的过程中,只需要关注学生模型的学习,使得训练过程的部署简单可控,大大降低了训练成本和资源消耗。
本节在两个大规模的公开数据集上对所提议方法的性能进行评估。首先,我们对数据集、评价指标和实验设置的具体细节进行介绍。然后,将所提出的KDLNet与现存的遥感图像场景分类方法的分类结果进行对比,并对所提出的KDLNet进行了参数实验和消融实验。最后,本节对所提议方法进行可视化分析,并给出了其与其它常见网络参数量和运算量的对比。
实验数据采用了Aerial Image dataset (AID
上述两个数据集的样例图像如


(a)
Airport Center


(b)
Church Storage Tank
图3 遥感图像样例图像: (a) AID数据集;(b) NWPU-RESISC45数据集
Fig. 3 Samples of remote sensing images: (a) AID dataset; (b) NWPU-RESISC45 dataset
在实验中,采用总体准确率(Overall Accuracy, OA)和混淆矩阵作为评价指标来评估模型的分类精度。其中,OA为测试集中被正确分类的样本数占总样本数的比例;混淆矩阵则以表格的形式通过百分比反映每个场景类别中正确分类和错误分类的图像数目比例,是一种全面且直观的评价指标。此外,采用总体参数量和浮点运算次数(Floating Point Operations, FLOPs)来分别衡量模型的参数量(空间复杂度)和运算量(计算复杂度)。为保证结果的可靠性,所有实验均重复5次,并在实验结果中报告其平均值和标准差。
本文所提出的模型在Pytorch框架上构建,并使用GeForce RTX 3090的单个GPU对模型进行训练,其GPU具有24GB的内存。教师模型和学生模型均采用在ImageNet数据集上预训练的权重来初始化。模型训练过程中,采用自适应矩估计优化器(Adaptive Moment Estimation optimizer, Adam)来进行优化,学习率为5.0×1
为验证所提出方法的分类精度,基于AID和NWPU-RESISC45数据集,将所提出的KDLNet的分类结果与其它遥感图像场景分类方法进行对比。对比方法均为基于CNN或自注意力机制的深度模型,包括五种基线模型(VGGNet-16、ResNet-50、ResNet-101、ResNet-152、ViT)和几种现存的用于遥感图像场景分类的SOTA方法(SCVi
Method | AID | NWPU-RESISC45 | ||
---|---|---|---|---|
Tr=20% | Tr=50% | Tr=10% | Tr=20% | |
Fine-tuned VGGNet-16 | 92.75±0.38 | 95.32±0.19 | 90.11±0.09 | 93.27±0.15 |
Fine-tuned ResNet-50 | 94.28±0.27 | 96.25±0.24 | 91.41±0.22 | 93.83±0.11 |
Fine-tuned ResNet-101 | 94.12±0.40 | 96.35±0.31 | 91.50±0.25 | 94.07±0.09 |
Fine-tuned ResNet-152 | 94.99±0.24 | 96.90±0.13 | 92.52±0.14 | 94.40±0.17 |
Fine-tuned ViT-B | 93.54±0.28 | 95.24±0.24 | 89.58±0.20 | 91.89±0.09 |
SCVi | 95.56±0.17 | 96.98±0.16 | 92.72±0.04 | 94.66±0.10 |
T-CN | 94.55±0.27 | 96.27±0.23 | 90.25±0.14 | 93.05±0.12 |
MGSNe | 95.46±0.21 | 97.18±0.16 | 92.40±0.16 | 94.57±0.12 |
KDLNet (ResNet-18) | 95.25±0.29 | 96.81±0.20 | 92.11±0.15 | 94.05±0.23 |
KDLNet (MobileNetV3) | 95.68±0.17 | 97.11±0.22 | 92.87±0.13 | 94.88±0.06 |
KDLNet (EfficientNet) | 96.01±0.25 | 97.32±0.18 | 93.18±0.20 | 95.12±0.13 |
本文所提议的方法是一种基于知识蒸馏策略的方法,目的在于将基于注意力机制的教师模型中所包含的潜在信息迁移到轻量化的学生模型中,提升学生模型的分类精度。因此,本节考察所提议方法对模型分类精度提升的有效性。
最常见的训练策略是基于预训练参数的微调(Fine-tune),即:首先,在大规模数据集(如ImageNe
Teacher | OA | Student | OA | ||||
---|---|---|---|---|---|---|---|
Tr=20% | Tr=50% | FT, Tr=20% | Ours, Tr=20% | FT, Tr=50% | Ours, Tr=50% | ||
Swin- Transformer | 95.95±0.35 | 97.18±0.23 | ResNet-18 | 94.22±0.24 | 95.25±0.29 (1.03↑) | 96.24±0.12 | 96.81±0.20 (0.57↑) |
MobileNetV3 | 93.46±0.36 | 95.68±0.17 (2.22↑) | 96.21±0.27 | 97.11±0.22 (0.90↑) | |||
EfficientNet | 93.95±0.36 | 96.01±0.25 (2.06↑) | 96.58±0.18 | 97.32±0.18 (0.74↑) |
Teacher | OA | Student | OA | ||||
---|---|---|---|---|---|---|---|
Tr=10% | Tr=20% | FT, Tr=10% | Ours, Tr=10% | FT, Tr=20% | Ours, Tr=20% | ||
Swin- Transformer | 93.23±0.17 | 94.90±0.14 | ResNet-18 | 91.02±0.24 | 92.11±0.15 (1.09↑) | 93.31±0.15 | 94.05±0.23 (0.74↑) |
MobileNetV3 | 90.69±0.37 | 92.87±0.13 (2.18↑) | 93.56±0.09 | 94.88±0.06 (1.32↑) | |||
EfficientNet | 91.23±0.21 | 93.18±0.20 (1.95↑) | 93.98±0.13 | 95.12±0.13 (1.14↑) |
此外,

(a)

(b)
图4 所提出的KDLNet和Fine-tuned EfficientNet在AID数据集(20% 训练样本)和NWPU-RESISC45数据集(10% 训练样本)上的测试集精度: (a) AID数据集;(b) NWPU-RESISC45数据集
Fig. 4 Test accuracy on AID dataset (20% training images) and NWPU-RESISC45 (10% training images) with the proposed KDLNet and the Fine-tuned EfficientNet: (a) AID dataset; (b) NWPU-RESISC45 dataset
除了OA结果,混淆矩阵可进一步验证KDLNet的性能。以KDLNet (EfficientNet)为例,

(a)

(b)
图5 KDLNet (EfficientNet) 在AID和NWPU-RESISC45数据集上的混淆矩阵: (a) AID数据集,左侧为20%训练样本,右侧为50%训练样本 (b) NWPU-RESISC45数据集,左侧为10%训练样本,右侧为20%训练样本
Fig. 5 Confusion matrices of the proposed KDLNet based on EfficientNet on the AID and NWPU-RESISC45 datasets: (a) AID dataset, Tr=20% (left), and Tr=50% (right), (b) NWPU-RESISC45 dataset, Tr=10% (left), and Tr=20% (right).
在所提议的KDLNet中,损失函数中温度系数T的确定对于准确分类至关重要。本节考察中温度系数T对于分类结果的影响。在实验中,选择EfficientNet作为实验对象,在AID数据集(Tr=20%)和NWPU-RESISC45数据集(Tr=10%)上分析T的不同取值对分类结果的影响,从而确定合适的参数取值,其实验结果如
T | OA | |
---|---|---|
AID (Tr=20%) | NWPU-RESISC45 (Tr=10%) | |
1 | 95.19±0.33 | 92.58±0.15 |
5 | 95.90±0.29 | 93.16±0.19 |
10 | 95.97±0.29 | 93.13±0.19 |
15 | 95.98±0.25 | 93.18±0.20 |
20 | 96.01±0.25 | 93.18±0.20 |
25 | 95.92±0.19 | 93.15±0.24 |
30 | 95.95±0.24 | 93.16±0.24 |
35 | 95.94±0.22 | 93.13±0.17 |
40 | 95.95±0.26 | 93.12±0.22 |
进一步,我们验证了

(a)

(b)
图6 平衡因子α在AID数据集(20% 训练样本)和NWPU-RESISC45数据集(10% 训练样本)上对分类精度的影响: (a) AID数据集; (b) NWPU-RESISC45数据集
Fig. 6 The impact of the balancing factor α on the classification accuracy on the AID dataset (20% training images) and NWPU-RESISC45 dataset (10% training images): (a) AID dataset; (b) NWPU-RESISC45 dataset
为了评估所提出模型中各个部分对结果带来的提升效果,在有分类损失和无分类损失两种情况下进行了消融实验,学生模型选择为EfficientNet。
对于有分类损失的情况,从基线模型(Baseline)开始,分别对其在训练的过程中加入类间蒸馏损失、类内蒸馏损失和改进的蒸馏损失(+),平衡因子α设置为0.5,以验证蒸馏损失能够在基线模型的基础上进一步提升分类效果;对于无分类损失的情况,即平衡因子α为1时,我们分别采用、和+对学生模型进行训练。具体分类结果如
Method | OA | |
---|---|---|
AID (Tr=20%) | NWPU-RESISC45 (Tr=10%) | |
Baseline () | 93.95±0.36 | 91.23±0.21 |
+ | 95.75±0.10 | 93.02±0.21 |
+ | 95.82±0.17 | 93.05±0.26 |
++ | 95.93±0.23 | 93.11±0.22 |
95.81±0.17 | 93.13±0.19 | |
95.86±0.14 | 93.12±0.20 | |
+ | 96.01±0.25 | 93.18±0.20 |
从
本节对所提出模型的参数量和运算量进行分析。
Methods | Parameters | FLOPs |
---|---|---|
VGGNet-1 | 134.38M | 15.47G |
ResNet-5 | 23.57M | 4.13G |
ResNet-10 | 44.55M | 7.87G |
ResNet-15 | 60.19M | 11.60G |
ViT-B | 85.68M | 16.86G |
Swin-Base | 87.70M | 15.17G |
KDLNet (ResNet-18) | 11.7M | 1.82G |
KDLNet (MobileNetV3) | 4.2M | 0.23G |
KDLNet (EfficientNet) | 5.3M | 0.42G |
图7 所提出方法(KDLNet)与基线方法(Fine-tuned ResNet-18)在NWPU-RESISC45数据集上热图结果对比。第一行为数据集中的原始图像,第二行和第三行分别为基线方法和KDLNet的热图。
Airplane | Ground Track Field | Basketball Court | Harbor | |
---|---|---|---|---|
Original images |
![]() |
![]() |
![]() |
![]() |
Fine-tuned ResNet-18 |
![]() |
![]() |
![]() |
![]() |
KDLNet (ResNet-18) |
![]() |
![]() |
![]() |
![]() |
模型在遥感图像上所关注的区域可通过类别激活映射(Class Activation Mapping, CAM
由以上实验结果可知,本文所提出的KDLNet在两个大规模数据集上均具有良好的分类性能,其主要特点可总结如下:
1) 高精度:KDLNet (EfficientNet)在AID数据集的50%训练样本和NWPU-RESISC45数据集的20%训练样本下,分别取得了97.32%和95.12%的分类准确率,超过了过去主流的深度学习基线方法和当前先进的方法,具有较高的分类精度。
2) 轻量化:相较于过去的方法,KDLNet在参数量和FLOPs上均有显著降低。以KDLNet (EfficientNet)为例,其参数量和运算量(FLOPs)仅为Swin-Base的6.04%和2.77%,并且与Swin-Base具有相近的分类准确率。
3) 超参数易调节:在KDLNet中,仅有温度系数T是需要调节的超参数。实验中,我们在多个数据集和不同的学生模型上均采用了相同的参数设置,取得了良好的分类结果;并且KDLNet可以在一个较宽的温度系数T变化范围内保持相近的结果,表明KDLNet对超参数变化不敏感。
另外,可视化结果也表明,尽管经过蒸馏的轻量级网络感知范围有所扩大,但它们的表达能力和泛化能力仍然有限。这也意味着,它们能识别并聚焦于对分类决策最重要的区域,却仍不能足够精确地捕捉到目标对象的细微特征和边缘信息,其感知精度仍显不足,这也导致其可能不利于直接应用于那些需要高精度定位和细粒度识别的下游任务(如目标检测、语义分割等)。
本文提出了一种基于知识蒸馏的轻量化遥感图像场景分类方法(即KDLNet)。所提议方法能够融合Transformer模型和CNN模型的优点,不仅能充分提取遥感图像的局部信息,还能充分挖掘遥感图像中的长程信息,具有高精度和轻量化的特点。具体地,本文以Swin Transformer和三种常见的轻量化CNN模型分别作为教师模型和学生模型,前者能够提取丰富的长程上下文信息,后者能够充分学习局部特征,并且具有参数量小、运算量低的特点;然后,通过知识蒸馏的方式将教师模型中的潜在知识转移到学生模型,提升后者对遥感图像的全面理解。更进一步,本文提出了一种新颖的知识蒸馏损失函数,舍弃了传统知识蒸馏过程中的分类损失,引入了类内蒸馏损失,使得学生模型在蒸馏过程中进一步学习遥感图像场景类别间和类别内的关系。在两个大规模公开数据集上的实验结果表明,所提出方法能够更好地学习到遥感图像的潜在特征,大幅提升基线方法的分类精度,甚至超过教师模型;更进一步,所提出的方法相较于目前的SOTA遥感图像场景分类方法也有显著的精度提升,与此同时,具有显著减小的参数量和运算量。所提议方法的这些特点对于实际应用具有重要的意义。
在未来工作中,我们计划将所提出方法与特征蒸馏相结合,同时向轻量级网络传递教师模型的中间层特征和输出特征,以使得学生模型能够更加精确地捕捉到特征细节,并提升泛化能力。
References
Huang X, Wen D, Li J, et al. Multi-level monitoring of subtle urban changes for the megacities of China using high-resolution multi-view satellite imagery [J]. Remote Sensing of Environment, 2017, 196: 56-75. [百度学术]
Lv Z, Shi W, Zhang X, et al. Landslide inventory mapping from bitemporal high-resolution remote sensing images using change detection and multiscale segmentation [J]. IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing, 2018, 11(5): 1520-1532. [百度学术]
Longbotham N, Chaapel C, Bleiler L, et al. Very high resolution multiangle urban classification analysis [J]. IEEE Transactions on Geoscience and Remote Sensing, 2012, 50(5): 1155-1170. [百度学术]
Lowe D. Distinctive image features from scale-invariant keypoints [J]. International Journal of Computer Vision, 2004, 60(2): 91-110. [百度学术]
Dalal N, Triggs B. Histograms of oriented gradients for human detection [C]. IEEE Conference on Computer Vision & Pattern Recognition, 2005. [百度学术]
Yang Y, Newsam S. Bag-of-visual-words and spatial extensions for land-use classification [C]. Sigspatial International Conference on Advances in Geographic Information Systems, 2010. [百度学术]
Simonyan K, Zisserman A. Very deep convolutional networks for large-scale image recognition [C]. International Conference on Learning Representations, 2014. [百度学术]
He K, Zhang X, Ren S, et al. Deep residual learning for image recognition [C]. IEEE Conference on Computer Vision & Pattern Recognition, 2016. [百度学术]
Bai L, Liu Q, Li C, et al. Remote Sensing Image Scene Classification Using Multiscale Feature Fusion Covariance Network With Octave Convolution [J]. IEEE Transactions on Geoscience and Remote Sensing, 2022, 60: 1-14. [百度学术]
Tand X, Li M, Ma J, et al. EMTCAL: Efficient Multiscale Transformer and Cross-Level Attention Learning for Remote Sensing Scene Classification [J]. IEEE Transactions on Geoscience and Remote Sensing, 2022, 60: 1-15. [百度学术]
Dosovitskiy A, Beyer L, Kolesnikov A, et al. An image is worth 16x16 words: Transformers for image recognition at scale [C]. International Conference on Learning Representations, 2021. [百度学术]
Liu Z, Lin Y, Cao Y, et al. Swin transformer: Hierarchical vision transformer using shifted windows [C]. Proceedings of the IEEE/CVF International Conference on Computer Vision, 2021. [百度学术]
Lv P, Wu W, Zhong Y, et al. SCViT: A spatial-channel feature preserving vision transformer for remote sensing image scene classification [J]. IEEE Transactions on Geoscience and Remote Sensing, 2022, 60: 1-12. [百度学术]
Xu K, Deng P, Huang H. Vision transformer: An excellent teacher for guiding small networks in remote sensing image scene classification [J]. IEEE Transactions on Geoscience and Remote Sensing, 2022, 60: 1-15. [百度学术]
Chen G, Zhang X, Tan X, et al. Training small networks for scene classification of remote sensing images via knowledge distillation [J]. Remote Sensing, 2018, 10(5): 719. [百度学术]
Hinton G, Vinyals O, Dean J. Distilling the knowledge in a neural network [J]. arXiv preprint arXiv:1503.02531, 2015. [百度学术]
Howard A, Sandler M, Chu G, et al. Searching for mobilenetv3 [C]. Proceedings of the IEEE/CVF International Conference on Computer Vision, 2019. [百度学术]
Tan M, Le Q. Efficientnet: Rethinking model scaling for convolutional neural networks [C]. International Conference on Machine Learning, 2019. [百度学术]
Xia G, Hu J, Hu F, et al. AID: a benchmark data set for performance evaluation of aerial scene classification [J]. IEEE Transactions on Geoscience and Remote Sensing, 2017, 55(7): 3965-3981. [百度学术]
Cheng G, Han J, Lu X. Remote sensing image scene classification: benchmark and state of the art [J]. Proceedings of the IEEE, 2017, 105(10): 1865-1883. [百度学术]
Wang W, Chen Y, Ghamisi P. Transferring CNN with adaptive learning for remote sensing scene classification [J]. IEEE Transactions on Geoscience and Remote Sensing, 2022, 60: 1-18. [百度学术]
Wang J, Li W, Zhang M, et al. Remote Sensing Scene Classification via Multi-Stage Self-Guided Separation Network [J]. IEEE Transactions on Geoscience and Remote Sensing, 2023, 61: 1-12. [百度学术]
Krizhevsky A, Sutskever I, Hinton G E. ImageNet classification with deep convolutional neural networks [J]. Advances in Neural Information Processing Systems, 2012, 25. [百度学术]
Zhou B, Khosla A, Lapedriza A, et al. Learning deep features for discriminative localization [C]. IEEE Conference on Computer Vision & Pattern Recognition, 2016. [百度学术]