遥感场景理解中视觉Transformer的参数高效微调
源自:电子与信息学报
作者:尹文昕, 于海琛, 刁文辉, 孙显, 付琨
摘 要
随着深度学习和计算机视觉技术的飞速发展,遥感场景分类任务对预训练模型的微调通常需要大量的计算资源。为了减少内存需求和训练成本,该文提出一种名为“多尺度融合适配器微调(MuFA)”的方法,用于遥感模型的微调。MuFA引入了一个多尺度融合模块,将不同下采样倍率的瓶颈模块相融合,并与原始视觉Transformer模型并联。在训练过程中,原始视觉Transformer模型的参数被冻结,只有MuFA模块和分类头会进行微调。实验结果表明,MuFA在UCM和NWPU-RESISC45两个遥感场景分类数据集上取得了优异的性能,超越了其他参数高效微调方法。因此,MuFA不仅保持了模型性能,还降低了资源开销,具有广泛的遥感应用前景。
关键词
遥感图像 / 场景分类 / 参数高效 / 深度学习
1. 引言
随着深度学习和计算机视觉技术的飞速发展,深度神经网络已成为遥感场景分类任务中的主要方法[1–3]。遥感场景分类是通过遥感数据识别给定区域的地表覆盖或土地利用类型。遥感场景的背景复杂、类型多变,类内差异较大,但部分类别之间又存在高度相似性,因此,具备强大特征提取能力的深度神经网络非常适用于遥感场景分类。
目前,主流的遥感场景分类方法主要基于两种模型:卷积神经网络(Convolutional Neural Network, CNN)模型和视觉Transformer模型。其中,CNN模型,如Krizhevsky等人[4]提出的深度卷积神经网络(AlexNet)、He等人[5]提出的残差卷积神经网络(ResNet)等主要使用大量可学习的2维卷积算子组合而成。这种2维卷积设计充分利用了2维图像的归纳偏置,因此能够很高效地进行训练。CNN 模型以捕捉细节的纹理特征见长,对全局性的语义特征理解能力较弱,因此,在近些年的实践中,CNN模型正逐步被视觉Transformer模型取代。视觉Transformer 模型如视觉变换器模型(Vision Transformer, ViT)[6]、滑窗变换器模型(Swin Transformer)[7]等利用自注意力机制,能够对图像的全局信息进行综合性理解,因此具有很强的阅读语义信息的能力。在多种自然场景的应用中,如图像分类、目标检测等任务中,视觉Transformer 模型的性能已经全面超过了CNN 模型。
视觉Transformer 模型不像CNN模型那样利用2维图像先验的归纳偏置,因此需要首先使用大规模数据进行预训练。当前主要使用的是自然场景数据集ImageNet[8] 预训练的视觉Transformer 模型,为了使其能够应用在遥感场景分类任务中,这些预训练模型还将在特定的遥感数据集上进行微调,并评估分类效果。
尽管视觉Transformer已经经过有效训练,但微调这些模型仍然需要大量计算资源,因为它们通常具有千万级别的参数。在这样的背景下,寻找一种仅微调少量参数的高效方法变得至关重要。在计算机视觉领域,这类方法被称为参数高效微调或参数高效迁移学习。经典方法包括偏差微调(BitFit)[9]、适配器微调(Adapter)[10]、低秩分解微调(Low-Rank Adaptation, LoRA)[11]、低秩矩阵适配器微调(LoRand)[12]、并联适配器微调(AdaptFormer)[13]、卷积旁路微调(Convpass)[14]等。然而,这些方法通常仅使用可学习的简单模块,如Adapter 使用简单的下采样-上采样瓶颈结构,Convpass 则使用下采样-2维卷积-上采样的结构。在复杂的遥感场景分类任务中,这样的简单结构不能有效利用遥感数据复杂的特征信息,因此难以达到最优效果。
为提升在遥感场景分类任务中视觉 Transformer 模型的迁移效率,在仅微调少量参数的前提下尽可能保持模型的分类能力,本文提出一种基于多尺度融合的适配器微调方法(Multi-Fusion Adapter, MuFA)。MuFA 的融合模块将不同下采样倍率的瓶颈模块相融合,并与原有模型进行并联。不同下采样倍率的瓶颈模块会专注于不同维度的图像特征,下采样倍率较低的瓶颈模块会更注重图像的纹理特征信息,而更高倍率的瓶颈模块则侧重于图像的语义信息。因此,将不同下采样倍率的模块进行融合,不同类型的特征信息也能够随之结合,并最终体现为模型分类效果的提升。因此,本文的主要贡献如下:
(1) MuFA 是一种参数高效微调方法,能够在仅微调少量模型参数的基础上,实现从自然场景的预训练模型到遥感场景的专用场景分类模型的迁移,节约了迁移学习过程的计算资源。
(2) MuFA 通过融合不同下采样倍率的瓶颈模块,实现了纹理特征和语义特征的融合,从而有效地提升了模型的分类效果。
(3)在多个遥感场景分类任务数据集上的实验结果表明,MuFA 可以在减少微调参数、节省计算资源的同时,拥有较好的分类能力,优于其他对比方法。
2. 相关工作
2.1 视觉神经网络
在视觉深度神经网络领域,许多经典和创新性的模型被提出,为图像分类、目标检测和语义分割等任务带来了显著的进展。首先是卷积神经网络(CNN)模型,其最具代表性的 AlexNet 是深度学习领域的先驱之一,由Krizhevsky 等人[4]于2012年提出。它是第1个在ImageNet[8] 图像分类挑战中取得显著成功的卷积神经网络。AlexNet 采用了深层卷积层和池化层,以及Dropout等技术,为后续模型的发展铺平了道路。超深度卷积神经网络 (Very deep convolutional networks, VGG)是由 Simonyan 等人[15]于2014年提出的CNN模型。它以其简洁的架构和深度堆叠的卷积层而闻名。VGG的核心思想是使用相同大小的卷积核,使网络更易于理解和实现。ResNet 是由 He 等人[5]于2016年提出的深度残差网络。它通过引入残差块,解决了深层网络训练中的梯度消失问题。ResNet 的结构使得网络可以轻松地堆叠数百个卷积层,成为图像分类任务中的标杆模型。
随着 Transformer[16] 模型在自然语言处理领域得到广泛应用,一系列用于计算机视觉任务的视觉Transformer 模型也被相继提出。ViT 是一种基于自注意力机制的视觉 Transformer 模型,由 Dosovitskiy 等人[6]于2020年提出。它将图像划分为小块(patch),并使用Transformer的自注意力机制来建模全局上下文信息。ViT在ImageNet分类任务上表现出色,为视觉领域引入了Transformer的思想。Swin Transformer 是一种基于滑动窗口注意力机制的 Transformer 模型,由Liu 等人[7]于2021年提出。它在处理高分辨率图像时具有高效性,并在多个视觉任务上取得了优异的性能。
2.2 参数高效微调
近年来,深度学习的快速发展导致模型参数数量显着增加。预训练模型通常需要迁移学习来适应特定任务。然而,将迁移学习应用于这些任务的大规模模型已被证明是一项艰巨的挑战。为了解决这个问题,自然语言处理(Natural Language Processing, NLP) 领域最初提出了一系列参数高效微调方法。Adapter[10] 引入了层之间可训练的瓶颈结构以增强模型适应性,BitFit[9]有选择地调整了一些在任务适应中发挥关键作用的关键偏差项,提示微调(Prompt-Tuning)[17] 将可学习的标记添加到输入层,以便为模型提供明确的指导,而LoRA[11] 将可训练的秩分解矩阵注入到 Transformer 架构的每个注意力层中。在各种NLP 任务中,与完全微调相比,参数高效微调方法始终表现出卓越的性能。这种现象也成为计算机视觉(Computer Vision, CV) 领域进一步研究的灵感来源。
参数高效微调在NLP领域的成功启发了计算机视觉(CV)领域的研究人员。受 Prompt-Tuning 的启发,视觉提示微调(Visual Prompt-Tuning, VPT)[18] 开发了视觉提示模块,这种视觉提示模块由一组简单的可训练的提示token(即提示模块)组成,并应用在视觉Transformer模型上。考虑到VPT的设计仍然偏向NLP的提示token 设计方法,没有考虑视觉任务的独特性,因此,在此基础上,在视觉领域诞生了一系列基于VPT的改进方法。改进视觉提示微调 (Improving Visual Prompt-Tuning, IVPT)[19] 提出不同层的提示模块应当存在一定关联性,并增加了不同层之间提示token的连接和交互。视觉查询微调(Visual Query-Tuning, VQT)[20] 注意到提示模块与模型的中间查询特征可以进行交互,因此选择在提示模块上额外聚合视觉Transformer的Query 特征。有效且高效的视觉提示微调(Effective and Efficient Visual Prompt Tuning, E2VPT)[21] 则为视觉提示附加了Key 约束,在自注意力层和输入层的视觉提示中额外引入了一组可学习的Key 值提示。
此外,在另一种经典的高效微调方法Adapter的基础上,一系列全新的视觉Adapter方法也被相继引入。AdaptFormer[13]在视觉任务上使用了并行的适配器结构,并从理论和实验两方面证明并行的适配器结构学习速度更快、效果更好。LoRand[12] 使用低秩融合机制创建了紧凑的适配器结构,这种低秩融合的设计进一步降低了微调参数量,改善了微调效果。克罗内克适配器微调(Kronecker Adaptation, KAdaptation)[22]使用Kronecker乘积法进一步分解微调参数,实现了微调参数量的进一步降低。Convpass[14]提出采用卷积型旁路代替经典的Adapter 瓶颈结构,并结合实验证实这种微调模式更加适应CV任务。视觉提示搜索 (Neural prOmpt seArcH, NOAH)[23] 则是一种综合性的方法,融合了VPT, LoRA 和Adapter 3 种微调方法,并取得了更优的效果。
然而,这些方法主要应用于自然场景图像分类或对象检测中相对简单的任务。对于遥感场景分类任务而言,其普遍存在背景信息复杂、多尺度信息占比重等问题。对于以VPT 为代表的提示微调方法,其没有充分考虑视觉提示模块与遥感图像特性的关联,而对于以Adapter 为代表的适配器微调方法,其适配器模块主要是简单的多层感知机 (MultiLayer Perceptron, MLP) 和卷积模块,难以捕捉遥感图像复杂的多尺度特征和语义特征。因此,在遥感领域,这类研究仍然存在显着的研究空白,值得做进一步的研究。
3. 基于多尺度融合的适配器微调方法
多尺度融合适配器微调(Multi-Fusion Adapter, MuFA) 的基础是使用视觉Transformer 进行遥感场景分类。这种分类方法通常采用的是编码器-解码器结构。其中编码器使用 ViT 或 Swin Transformer 模型,解码器则使用简单的多层感知机 (MLP) 或全连接层,其结构如图1所示。这种编码器-解码器结构是非对称的,编码器一般是深层神经网络,有大规模的参数,其主要作用是将输入图片转化为高维度的特征向量,解码器则通常结构简单,仅为1层或2层全连接层,作用是将高维特征向量转化为图片的类别信息。因此,在模型的微调过程中,编码器部分消耗几乎所有的计算资源,因而参数高效微调聚焦于如何高效地微调编码器部分的参数。
图 1 基于视觉Transformer进行图片分类
3.1 并联适配器微调
如图2所示,在每个视觉 Transformer 层中,多尺度融合适配器微调 (MuFA) 将多尺度融合适配器模块(图2中蓝色模块)与原始的视觉 Transformer 模块(图2中绿色部分)并联连接。如果用 LN 代表层归一化,MHA 代表多头自注意力模块,MLP 代表多层感知机,MuFA 代表需要微调的多尺度融合适配器模块,x 代表前向传播过程中的特征向量,i 代表当前特征向量和模块所在的层,那么在单个视觉 Transformer 层中,前向传播过程可以表示为
图 2 多尺度融合适配器微调的并联连接
(1)
(2)
模型的这种并联设计有两个原因,其一是并行设计使用独立的分支而非将模块嵌入,这样可以维护模型原始的特征,并进一步增强模型的语义特征。其二是原始的串联设计相当于增加了更多的层数,可能会导致模型优化困难。在模型微调过程中,原始的视觉Transformer 模块,包括层归一化模块、多头自注意力模块和多层感知机模块将不再进行参数更新,仅MuFA模块将进行微调训练。经过专门设计的MuFA 模块是一个轻量级的模块,这样的设计使得模型在训练过程中只需要微调很少量的参数便能达到较优的性能。
3.2 多尺度融合适配器模块
当某个预训练模型应用于特定下游任务时,并非该预训练模型提供的所有特征向量都是有用的。相反,某些特征向量可能会使模型产生负迁移。基于这种理解,本文通过在模型上附加多尺度融合适配器模块以引入偏差项。多尺度融合适配器模块的结构如图3所示。输入特征图首先会经过若干个下采样层,得到的若干个中间特征图在经过激活后将进行对应的上采样计算,并经过加权融合后,模型得到最终的输出特征图。这种方法的特点是在某些通道中进行更高程度的下采样,以确保关键的特征信息得到保留。
图 3 多尺度融合适配器模块
对于多尺度融合适配器模块,如果使用 GELU 作为激活函数,Up 和Down 分别表示上采样和下采样计算,那么多尺度融合适配器模块的前向推理过程可以表示为
(3)
在具体实现中,上采样和下采样通过单个全连接层实现,全连接层带有额外的bias。如果将通道为c 的特征向量下采样到c′ ,那么全连接层的权重将是一个c×c′ 的权重矩阵,全连接层的bias 则是一个长度为c′的向量。多尺度融合的适配器模块的个数被设置为3个(即上式中的n=3 ),对应的其下采样倍数依次为8倍、16倍和32 倍。较高的下采样倍数降低了额外引入的可训练参数量,并加快了模型的训练速度。
3.3 训练过程
由于参数冻结策略的存在,使用 MuFA 进行模型微调时,整个模型的训练方法是有所不同的。如果有数据集D(xi,yi) ,D(xi,yi) 其中xi 为输入图像,yi 为真值标签,那么对于模型fθ ,其中θ 为模型参数,完全微调的参数更新过程为
(4)
(5)
而如果仅微调模型的部分参数,则模型参数可以拆解为两部分,即θf和θt。其中θt表示需要进行微调的模型参数,即本文所提方法的MuFA模块部分和分类头,θf为无需微调的参数,即本文所提方法的视觉Transformer 编码器部分。因此在这种情形下,模型的参数更新过程为
(6)
(7)
综合上述公式,在模型训练过程中,通过引入MuFA模块,可以减少最后一步参数更新过程的计算量,从而达到提升训练效率、节省训练时间的效果。此外,当使用多个GPU进行并行训练时,优于需要进行梯度更新的参数更少,因此GPU通信的时间损失将会大大减小,从而实现更高效的多GPU并行训练。
4. 实验结果与分析
4.1 实验设置
在本文的研究中,两个预训练模型被选择为遥感场景分类的基准模型:Vit-Base[6]和Swin-Tiny[7]。这两个模型都在ImageNet-1K数据集上进行了预训练,因此具有比较丰富的特征表示能力。Vit-Base是一种经典的视觉Transformer结构,而Swin-Tiny是一个轻量级的视觉Transformer模型。
本文复现了多种经典的参数高效微调方法,以评估所提方法在遥感场景分类任务上的性能。这些对比方法包括完全微调、完全冻结(仅微调分类头)、仅微调Layer Norm层[24]、Adapter[10], LoRA[11], BitFit[9], AdaptFormer[13]和Convpass[14]。这些对比方法大多发表在顶级机器学习期刊和会议上,与之对比能够体现所提方法在遥感场景分类任务上的优势。此外,为综合评估所提方法,两个常用的遥感场景分类数据集被用于实验。加州大学默塞德分校发布的土地利用图像遥感数据集(University of California at Merced land-use dataset, UCM)[25]是一个包含21个类别的数据集,涵盖了不同类型的遥感图像。它具有一定的多样性,适合用于模型性能评估。西北工业大学发布的45类遥感场景分类数据集(NorthWestern Polytechnical University REmote Sensing Image Scene Classification, NWPU-RESISC45)[26]则包含45个遥感场景类别,是一个更具挑战性的数据集,涵盖了更广泛的场景,包括城市、农田、森林等。对于这两个数据集,实验沿用了标准的训练/测试集划分方式,其中UCM按照8:2划分训练和测试集,NWPU-RESISC45则按照2:8划分训练和测试集。训练时,所有图片被调整为224×224像素大小。本文所有实验使用两张NVIDIA RTX 4090显卡完成,批次大小(batch size)设为128,共微调100个轮次(epoch)。训练过程使用AdamW优化器,基础学习率为0.001(完全微调为0.000 1),带有5个epoch的预热(warm up),并采用余弦退火学习率衰减设置。
4.2 对比实验结果
以Vit-Base 为基准模型的对比实验结果如表1所示。其中,微调参数表示除分类头外,模型中被训练的参数占总参数的比例。完全微调意味着所有参数都被训练,而完全冻结表示除分类头外的所有参数都未被训练。分类的评价指标为分类正确率(Accuracy, Acc.)在Vit-Base 为基准模型的对比试验中,本文提出的 MuFA 在场景分类性能方面表现出色。在 UCM 和RESISC45两个数据集上,其性能仅次于完全微调,优于所有参数高效微调方法。值得注意的是,得益于对整个原有模型的冻结,MuFA 仅微调了模型中的3.64% 参数,这大大降低了模型迁移过程的时间成本和计算成本。
表 1 以Vit-Base为基准模型的对比试验(%)
以Swin-Tiny 为基准模型的对比试验结果如表2所示。Swin-Tiny 作为一种轻量级的视觉Transformer 模型,利用了滑动窗口注意力机制,更适用于遥感场景的任务。在Swin-Tiny 为基准模型的对比实验中,MuFA同样表现出极佳的分类性能,在两个数据集上的分类正确率都优于所有参数高效微调方法,同时减少了所需的微调参数量。
表 2 以Swin-Tiny为基准模型的对比试验(%)
图4列出了ViT-Base 模型上UCM 数据集的对比试验和Swin-Tiny 模型上RESISC45 数据集的对比实验的可视化结果。在与诸多方法的比较中,本文所提方法具有最好的微调效果。横坐标为微调参数量所占的百分比(Tuning Parameters, Param.),纵坐标为在对应数据集上的分类正确率(Accuracy, Acc.)。
图 4 Vit-Base模型和Swin-Tiny模型上的对比试验
以Swin-Tiny 为基准模型的对比试验结果如表2所示。Swin-Tiny 作为一种轻量级的视觉Transformer 模型,利用了滑动窗口注意力机制,更适用于遥感场景的任务。在Swin-Tiny 为基准模型的对比实验中,MuFA同样表现出极佳的分类性能,在两个数据集上的分类正确率都优于所有参数高效微调方法,同时减少了所需的微调参数量。
表 2 以Swin-Tiny为基准模型的对比试验(%)
图4列出了ViT-Base模型上UCM数据集的对比试验和Swin-Tiny模型上RESISC45数据集的对比实验的可视化结果。在与诸多方法的比较中,本文所提方法具有最好的微调效果。横坐标为微调参数量所占的百分比(Tuning Parameters, Param.),纵坐标为在对应数据集上的分类正确率(Accuracy, Acc.)。
MuFA在不同视觉 Transformer模型上展现出稳定的性能。它不仅降低了微调参数,节省了训练成本,而且其性能与完全微调相差无几。这表明MuFA 是一种有效的模型微调方法,既保持了性能,又减少了资源开销。
4.3 消融研究
以Swin-Tiny 为基准模型的消融实验结果如表3所示。在前面的对比试验中,已经观察到MuFA 相对于计算机视觉领域的参数微调方法具有显著的优势。然而,为了更全面地证明MuFA 的有效性,本文还进行了消融实验的研究。MuFA 的设计包含两个关键方面,即融合模块的并联连接和多尺度结构。接下来,本文将详细探讨这两个设计对MuFA 性能的影响。
表 3 以Swin-Tiny为基准模型的消融研究(%)
如图5所示,参考现有的Adapter 微调方法,MuFA的融合模块可以采取两种不同的连接方式:串联连接和并联连接,已有的方法中,如Convpass, AdaptFormer采用并联,LoRand 采用串联。本文方法选择并联连接。具体而言:当MuFA 采取串联连接,并仅使用单尺度时,MuFA 将退化为经典的Adapter 结构,这种结构下原模型的特征向量会直接经过Adapter 的瓶颈模块或MuFA 的融合模块,而仅采用并联并使用单尺度的MuFA 则与AdaptFormer 结构相同,特征向量会分别经过原模型和AdaptFormer 瓶颈模块或MuFA 融合模块,再进行组合。在消融研究中,模块与原模型并联的性能通常优于与原模型串联,这在对比实验中表现为AdaptFormer 的性能优于Adapter,在消融研究中则表现为(4), (5)和(6)的分类性能分别优于(1), (2)和(3)。
图 5 MuFA模块连接方式
MuFA采用了多尺度融合的结构,该模块使用多个不同采样倍数的适配器模块实现,这使得融合模块能够更充分地利用不同尺度的信息。本文进一步探讨了不同尺度数目对MuFA性能的影响。具体而言,增加MuFA融合模块数目有效提升了模型最终的分类性能,在消融研究中,(1), (2)和(3)以及(4), (5)和(6)依次表现出性能的提升。
综上所述,MuFA设计的有效性在不同连接方式和尺度融合数量的情况下都得到了验证,既保持了性能,又降低了资源开销。这为进一步推广MuFA在视觉Transformer遥感场景应用提供了有力的支持。
5. 结束语
本文提出了一种基于多尺度融合的适配器微调方法(MuFA),旨在提升视觉Transformer模型在遥感场景分类任务中的迁移效率。MuFA通过融合不同下采样倍率的瓶颈模块,有效地结合了图像的纹理特征和语义特征,从而在仅微调少量参数的前提下,保持了模型的分类能力。实验结果表明,MuFA在减少微调参数、节省计算资源的同时,具有较好的分类性能,优于其他对比方法。
未来的研究方向可以进一步探索更复杂的遥感场景分类任务,并考虑更多不同类型的遥感任务和数据集。此外,对于更大规模的视觉Transformer模型,特别是专门的遥感无监督预训练模型,如空天·灵眸大模型(RingMo)[27]、多模态遥感大模型(SkySense)[28]等,如何进一步提高迁移效率也是一个值得研究的问题。