基于CSLS-CycleGAN的侧扫声纳水下目标图像样本扩增法

创建时间:2024-05-15 14:54
源自:系统工程与电子技术

作者:汤寓麟, 王黎明, 余德荧, 李厚朴, 刘敏, 张卫东

摘 要

针对侧扫声纳水下目标图像稀缺,获取难度大、成本高,导致基于深度学习的目标检测模型性能差的问题,结合光学域类目标数据集丰富的现状,提出一种基于通道和空间注意力(channel and spatial attention, CSA)模块、最小二乘生成对抗生成网络(least squares generative adversarial networks, LSGAN)及循环对抗生成网络(cycle generative adversarial networks, CycleGAN)的侧扫声纳水下目标图像样本扩增方法。首先,受CycleGAN的启发,设计基于循环一致性的单循环网络结构,保证模型的训练效率。然后,在生成器中融合CSA模块,减少信息弥散的同时增强跨纬度交互。最后,设计了基于LSGAN的损失函数,提高生成图像质量的同时提高训练稳定性。在船舶光学域数据集与侧扫声纳沉船数据集上进行实验,所提方法实现了光学-侧扫声纳样本间信息的高效、稳健转换以及大量侧扫声纳目标样本的扩增。同时,基于本文生成样本训练后的检测模型进行了水下目标检测,结果表明,使用本文样本扩增数据训练后的模型在少样本沉船目标检测的平均准确率达到了84.71%,证明了所提方法实现了零样本和小样本水下强代表性目标样本的高质量扩增,并为高性能水下目标检测模型构建提供了一种新的途径。

 

关键词

样本扩增, 侧扫声纳, 循环生成对抗网络, 通道和空间注意力模块, 最小二乘生成对抗网络

引言

水下目标探测在航行安全、海洋调查、海上搜救、军事任务等领域具有非常重要的作用[1]。目前, 水下目标探测的方法主要包括声探、磁探、光探、电探等, 其中声波因其水中成像条件、传播距离以及范围的优势成为目前主流的水下目标探测方式[2-4]。侧扫声纳较其他声学设备拥有更宽的扫幅和更高的成像分辨率, 且体积小、价格低廉, 在水下目标探测中应用广泛[5-9]

目前, 基于侧扫声纳图像的水下目标检测多基于人工目视判读, 存在效率低、耗时长、主观依赖性强等问题[10]。因此, 针对侧扫声纳图像的水下目标自动探测方法研究十分必要[11]

部分学者采用机器学习方法, 联合人工特征和分类器实现水下目标的自动探测, 在一定条件下取得了较好的探测效果[12-13]。但受复杂海底环境和测量条件的影响, 侧扫声纳图像通常存在低分辨率、特征贫瘠、噪声复杂以及畸变严重等特点, 使传统的机器学习方法探测精度受到限制[14-16]。近年来, 计算机视觉领域发展迅速, 基于深度学习的目标检测方法性能远超传统机器学习方法, 引起了水下探测领域的广泛关注[17-24]。然而, 基于深度卷积神经网络(deep convolutional neural network, DCNN)的目标探测模型需要大量训练样本, 高代表性样本是实现高性能探测的关键[25]。而侧扫声纳图像因数据采集成本高、耗时长、目标较少等问题导致数量严重匮乏, 样本代表性不足[26]。因此, 急需开展小样本水下目标侧扫声纳图像的样本扩增。

受光学影像中样本扩增技术的启发, 侧扫声纳水下目标样本扩增方法主要通过迁移学习[27-30]方法获得, 但是在迁移转换模型训练时无法全面顾及声波发射单元、声波传播介质、声波反射目标、声波反射背景场、声波接收单元、噪声和数据后处理等七大类要素的影响[31-32], 生成样本代表性弱, 对基于DCNN的目标探测网络泛化能力和精度提升有限。

近年来, 随着生成对抗网络(generate adversarial networks, GAN)的迅速发展, 其被广泛地应用于利用外源图像进行风格迁移的任务中, 其核心逻辑是通过生成网络和判别网络相互对抗、博弈最终生成判别网络无法判别真伪的高质量图像, 具有比传统机器学习更强、更全面的特征学习和表达能力。Isola等[33]提出了Pix2Pix模型, 首次实现了基于GAN的图像迁移任务, 但该网络要求的输入必须是成对图像, 不适用于侧扫声纳图像的样本扩增。为解决成对数据的限制, Zhu等[34]设计了循环GAN(cycle GAN, CycleGAN), 通过非成对数据的非监督学习实现风格迁移任务。受CycleGAN启发, 李宝奇等[35]通过基于循环一致性的改进CycleGAN实现水下小目标光学图像到合成孔径声纳图像的迁移生成。但是, 由于侧扫声纳水下目标图像的高噪声、不同环境下差异大的特点, 在使用非配对光学-侧扫声纳图像训练时, 生成器难以提取图像特征从而生成与目标域相似的图像来“欺骗”判别器, 进而造成模型振荡或生成器和判别器之间的不平衡, 从而导致模型过拟合或模式崩溃。另外, 侧扫声纳图像特征贫瘠、辐射畸变大的特点导致模型在转换过程中容易混淆背景与目标特征, 丢失目标轮廓、纹理和噪声, 而这些恰恰是侧扫声纳图像的关键。

综上, 本文提出了一种基于通道和空间注意力(channel and spatial attention, CSA)模块、最小二乘GAN(least squares GAN, LSGAN) 及CycleGAN(简称为CSLS-CycleGAN)的水下目标侧扫声纳图像样本扩增方法。首先, 设计基于循环一致性的单循环网络结构, 保证模型的训练效率以及任务的专注度。其次, 在生成器中融合CSA模块, 减少信息弥散的同时增强跨纬度交互, 在学习全局特征的同时关注目标的细粒度特征。然后, 设计了基于LSGAN的损失函数, 提高生成图像质量的同时提高训练稳定性, 避免模式崩溃的情况。最后, 基于该转换模型, 将船舶目标光学图像转换为侧扫声纳图像, 实现样本高质量扩增, 以期解决侧扫声纳水下目标图像稀缺, 为小样本水下强代表性目标样本扩增以及高性能水下目标检测模型构建提供了一种新的途径。

1 CSLS-CycleGAN

足够数量的强代表性样本是训练高性能探测模型的前提, 是最终形成高性能智能探测模型的关键组成。使用GAN实现水下目标双域转换以及侧扫声纳水下目标图像样本扩增是本文的重要组成, 网络的使用是实现高质量样本扩增的关键。针对光学图像与侧扫声纳图像风格差异较大的问题, 传统的GAN存在生成数据质量较差, 甚至两个域的图像没有任何匹配关系的问题。为了让生成图片与输出图像产生强关联, 本文使用基于单循环一致性的GAN, 在保证训练效率的同时重点关注光学域向声学域的转换任务。同时, 在生成器中融合CSA模块, 减少信息弥散的同时增强跨纬度交互。最后, 设计了基于LSGAN的组合损失函数, 提高生成图像质量的同时提高模型训练的稳定性。本文提出网络的具体结构图如图 1所示。

 

图1   CSLS-CycleGAN结构图

 

1.1 网络结构

本文模型主体由两个生成器GosGso和一个判别器D组成, 将从光学域中的图像转换成声学域的图像的生成器称为Gos, 从声学域中的图像转换成光学域的图像生成器称为Gso, 将判别图像属于声学域或虚假的判别器称为D

原始输入光学图像通过生成器Gos获得侧扫声纳图像S后, 将生成的侧扫声纳图像作为输入通过生成器Gso获得与光学图像相同域的图像重构光学图像, 最终保持光学图像与重构光学图像一致, 让图像循环了一周回到起点并保持一致。生成器结构如图 2所示。首先, 使用3个卷积层对输入图像进行特征提取, 每个卷积层后使用实例归一化(instance normalization, IN)操作以及ReLU激活函数, IN操作仅对单张图像的像素进行均值和标准差的计算, 避免了批量归一化(batch normalization, BN)中一批图像之间的相互影响, 且拥有更高的效率。其次, 使用注意力机制CSA模块对图像通道和空间特征进行全局学习, 建立局部细节特征与全局特征的交互关系, 并通过跳跃连接实现多尺度特征融合。然后, 使用6个残差网络在进一步提取图像信息的同时对输入数据特征进行保留。接着, 使用2个转置卷积进行上采样操作。最后, 再连接一个卷积层, 获取的图像矩阵经函数激活Tanh获得最后的输出图像。

 

图2   网络中生成器的结构图

 

为加强输入数据与输出数据之间的关系, 采用残差网络代替深层的卷积网络。通过特征提取层提取特征, 再将特征数据传递给输出层, 避免生成器损失输入层的一些基本信息, 保留输入数据的部分特征, 更好地保护原始图像信息的完整性, 解决传统神经网络随网络深度的增加而梯度消失明显的问题, 加快模型的训练速度, 改善模型的训练效果。判别器结构如图 3所示。

 

图3   网络中判别器的结构图

 

判别器使用5个卷积层对输入图像进行特征提取, 每个卷积层后使用IN操作以及LeakyReLU激活函数, 其中最后一层卷积层直接返回线性操作结果。

1.2 CSA模块

对侧扫声纳图像的目标细节特征与背景特征充分学习是生成高质量图像的关键, 为了更好地对输入图像的全局信息以及局部特征进行学习, 增强通道与空间的相互作用, 本文设计了一种跨越通道和空间纬度的CSA模块, 通过减少信息弥散的同时放大全局的跨纬度交互以提高网络性能。CSA模块由通道注意力和空间注意力组成, 具体结构如图 4所示。本文通道注意力和空间注意力模块采用并行计算, 将各自输出的权重系数与初始输入特征图进行元素相乘后, 再进行两者特征信息的逐元素相加, 在提高效率的同时放大跨纬度的感受域。

 

(1)

 

图4   CSA模块的结构图

 

式中: Mc(I)和Ms(I)分别为通道注意力和空间注意力模块的特征输出, 对各模块的具体描述如下。

1.2.1 通道注意力

通道注意力强调模型应该关注什么特征, 其每个通道都包含一个特定的特征响应。首先, 将输入的特征I(H×W×C)分别经过基于宽和高的全局最大池化和全局平均池化, 得到两个1×1×C的特征图。其次, 再将其分别送入一个两层感知器(multilayer perceptron, MLP), 第1层神经元个数为C/r(r为减少率), 激活函数为ReLU, 第2层神经元个数为C, 这个两层的神经网络是共享的。然后, 将MLP输出的特征进行基于逐元素的加和操作后经过Sigmoid激活函数, 生成最终的通道注意力特征, 即Mc。最后, 将Mc和特征I做逐元素乘法操作可得到缩放后的新特征:

 

(2)

 

式中: σ为Sigmoid激活函数; , 两者为MLP共享网络的权重。

1.2.2 空间注意力

空间注意力强调模型关注的特征在哪里, 即增强或抑制不同空间位置的特征。首先将输入的特征I(H×W×C)做一个基于通道的全局最大池化和全局平均池化, 得到两个H×W×1的特征图后进行基于通道的拼接操作。其次, 通过一个7×7卷积核的卷积操作将图像降维为1个通道。然后, 通过Sigmoid激活函数生成空间注意力特征, 即Ms。最后, 将Ms和特征I做逐元素点乘乘法, 得到最终生成的特征。

 

(3)

 

式中: σ为Sigmoid激活函数; f7×7为卷积核为7×7的卷积操作。

图像初始特征学习热力图如图 5所示, 可以看出CSA模块能动态地抑制或强调特征的映射, 有效避免了关键目标特征变成背景特征的情况。

 

图5   图像初始特征学习热力图

 

1.3 损失函数

合适的损失函数对GAN生成图像的质量提升起到了至关重要的作用。从提出的网络架构图可以看出, 其损失函数由LSGAN损失、Cyclic-consitency损失以及Identity损失3部分组成。LSGAN损失指导生成器生成更加逼真目标域的图像; Cyclic-consitency损失指导生成器生成的图像与输入图像尽可能的接近; Identity损失限制生成器无视输入数据。

1.3.1 LSGAN损失

传统GAN使用交叉熵作为损失函数, 该函数不优化被判别器判定为真实图像的图像, 即使这些图像与判别器的决策边界仍然很远, 导致生成器生成的图像质量不高以及模型训练不稳定。为此, 本文采用了LSGAN中目标函数作为模型的损失函数, 即采用最小二乘作为损失函数。

 

(4)

 

(5)

式中: Pdata(s)表示真实数据分布; s表示生成的数据与真实数据之间的误差; G表示生成器; Pz(z)表示输入噪声的先验分布。

在判别器D的目标函数中, 给真实数据和生成数据赋予编码bab=1表示为真实数据, a=0表示为生成数据, 通过最小化判别器判别生成数据与0的误差以及真实数据s与1的误差, 实现判别器的最优化。在生成器Gos的目标函数中, 给生成数据赋予编码c, 通过最小化生成器生成数据z与1的误差, 指导生成器成功欺骗判别器从而获得高分, 此时c=1。因此, 将式(4)和式(5)分别转化为

 

(6)

 

(7)

1.3.2 Cyclic-consitency损失

为实现循环一致性, 即要求从光学域转换为声学域时满足

 

(8)

 

数学公式表达如下:

 

(9)

 

式中: 1-范数为矩阵1-范数, 表示所有矩阵的列向量中元素绝对值之和最大的值。

 

(10)

 

1.3.3 Identity损失

Identity损失用于限制生成器无视输入数据而去自主修改图像颜色的情况, 表示若将声学域图像送入生成器Gos中, 那么应尽可能得到本身, 具体损失函数如下:

 

(11)

 

因此, 网络的总损失函数如下:

 

(12)

 

式中: λ1λ2为非负超参数, 用于调整损失对整体效果的不同影响。衡量每一个损失, 以平衡每一个组成部分的重要性。

2 实验

基于CSLS-CycleGAN的侧扫声纳图像样本扩增是本文方法的重要组成, 为评估本文方法的可行性和有效性, 本实验对提出的GAN性能进行评估。通过外源光学船舶图像和侧扫声纳沉船图像双域转换的性能对提出模型进行评估, 包括与主流GAN进行比对, 并对生成的图像的质量进行定性定量的分析; 生成图像对YOLOv5目标检测模型的检测性能提升的作用; 以及通过消融实验对GAN中使用策略的有效性进行定性与定量的分析。

2.1 数据集

本文用于实验的数据集主要由侧扫声纳沉船图像以及卫星光学船舶数据组成。侧扫声纳沉船数据集由各海道测量部门和国内外主流侧扫声纳仪器设备,在多区域实测获得的600张侧扫声纳沉船图像组成, 部分样本如图 6(a)所示。卫星光学船舶数据集由部分HRSC2016组成, 本实验挑选其中代表性强的数据共5 000张, 部分样本如图 6(b)所示。

 

图6   数据集中的部分样本

 

2.2 评价指标

根据文献[36]的研究, FID(Frechet inception distance)、最大平均差异(maximum mean discrepancy, MMD)和1-最近邻分类器(1-nearest-neighbor, 1-NN)相比其他指标可以更好地评价生成样本的清晰度、特征的多样性和图片的真实性。

FID是计算真实图像与生成图像的特征向量之间距离的度量, 用于度量两组图像的相似度, FID的计算方法为

 

(13)

 

式中: μrμg分别为两个分布的均值向量; ΣrΣg为其协方差矩阵; ‖·‖为向量的范数。FID值越小, 图像增强效果越好。

MMD基于最大均方差的统计检验来度量两个特征分布之间的相似性, 将真实集和生成集映射到具有固定核函数的核空间, 然后计算两个分布之间的平均差。MMD的计算公式为

 

(14)

 

式中:X代表真实图像集; XiXj是从X中提取的样本; Y代表生成的图像集; YiYj是从Y中提取的采样; E代表期望值; K是高斯核。较低的MMD值表示更有效的图像增强。

1-NN使用二值分类器将n个实数集(标记为1)与n个生成集(标记为0)混合, 然后随机分为训练集T1(编号为2n-1)和测试集T2(编号为1), 用T1训练分类器, 用T2获得分类精度, 以此来计算两个图像集之间的相似性。以上步骤循环2n次, 每次选择不同的T2, 最后计算平均分类准确率。精确度越接近0.5越好。

同时, 考虑到本文的目的是对匮乏的侧扫声纳水下目标图像进行样本扩增, 来提高基于深度学习的目标检测模型的性能, 因此接下来本文使用基于深度学习的目标检测模型进行对比实验。目前,目标检测模型非常多, 由于本文的目的在于验证扩增样本的有效性, 因此本文最终采用高速、轻量、易于部署的YOLOv5模型进行评价实验。将GAN模型生成的图像作为训练集输入YOLOv5网络, 将真实图像作为验证集, 通过召回率、精度和平均精度来评估生成的图像在检测网络中的有效性。

2.3 实验设计

模型训练均基于Pytorch框架用Python语言实现, 硬件环境为: Windows10操作系统; CPU为Intel(R) Core(TM) i9-10900X@3.70 GHz; GPU为2块NVIDIA GeForce RTX 3090, 并行内存48 GB。

 

HRSC2016数据集由于原始图像像素过大且大部分均为背景, 在训练模型时反而是一种负担, 因此所有光学图像数据均在保留目标的基础上统一设置为250×250。将侧扫声纳沉船图像按5 ∶1划分训练集和评估集, 船舶光学图像按9 ∶1划分为训练集和转换集。侧扫声纳图像的评估集和光学图像的转换集用以进行生成图像质量的定量分析。为减少训练时的震荡, 让模型训练更加的稳定, 本实验在训练时引入缓存历史数据的方式。使用list存储之前10张图像, 每次训练判别器时从list中随机抽取一张进行判别, 让判别器可以持有判别任意时间点生成器生成图像的能力。模型训练的参数如表 1所示。

 

表1   模型的训练参数

类项 参数   类项 参数
批量大小 16   裁剪尺寸 256
λ1/λ2 10/0.5 学习率 0.000 2
学习率策略 Linear 学习率衰减迭代次数 50
步数 1 000 优化器 Adam
β 0.5 - -

 

表 1中, λ1λ2是损失函数式(12)中的参数, β是Adam优化器的参数。

2.4 实验与分析

2.4.1 定量分析

本节首先对模型的训练过程以及性能进行分析和评估。本文提出的网络最初受CycleGAN启发, 将本文提出的模型与不同结构的CycleGAN模型(即生成器采用ResNet-06、ResNet-09、UNet-128、UNet-256基础网络)进行比较,结果如图 7所示。

 

图7   5种模型训练过程的损失值

 

图 7可以看出, 5种模型的损失值均随着训练步数的增加而不断减小并最终趋于稳定, 达到拟合状态。其中, 本文提出的网络在Cyclic-consitency损失、LSGAN损失以及Identity损失中均最低, 同时在整个训练过程中最为稳定, 不存在其他几个网络在训练过程中出现较大的振幅变化的情况。

 

因为本文模型属于无监督学习的双域图像的风格迁移, 因此将上述模型与该领域主流的pix2pix、DualGAN[37]以及DiscoGAN[38]进行生成图像的对比, 比较对象为将HRSC2016转换集中的500张光学图像转换生成的侧扫声纳沉船图像与真实侧扫声纳评估集中的100张图像进行定量分析, 分别计算FID、MMD和K-NN, 其中K设置为1。最终定量试验结果如表 2所示。

 

表2   使用不同典型模型生成图像的性能

组别 模型 FID↓ MMD↓ 1-NN↓0.5
1 pix2pix 214.77 0.315 0.97
2 CycleGAN-ResNet-06 153.65 0.192 0.82
3 CycleGAN-ResNet-09 148.71 0.164 0.83
4 CycleGAN-UNet-128 155.12 0.137 0.77
5 CycleGAN-UNet-256 133.69 0.151 0.79
6 DualGAN 130.17 0.160 0.74
7 DiscoGAN 129.98 0.149 0.75
8 所提方法 123.12 0.105 0.72
 

对比组别2~5可以看出, 模型结构并不是越复杂, 参数越多效果越好, 相反由于侧扫声纳图像低分辨率、特征贫瘠等特征, 在图像的生成上越复杂的模型结构不一定带来更好的生成效果。组别1证明pix2pix模型生成图像的质量最不理想, 可能是由于该模型需要成对的数据集作为训练的输入, 本实验虽然拥有同一目标的不同域图像, 但是除了在背景上的差异外, 还存在目标的尺寸、方位、纹理、分辨率等多维度的差异, 不能理解为理想的成对图像。而组别2~8由于采用无监督学习, 不需要成对的双域图像即可完成高质量的图像生成, 因此均取得优于组别1的效果。从组别6和组别7可以看出, DualGAN和DiscoGAN网络与CycleGAN网络在沉船目标光学与侧扫声纳双域图像转换任务上性能差距不大, 均能很好地达到目的。组别8对比其他组别可以看出, 使用本文模型结构的FID和MMD值均最低, 1-NN值与0.5最为接近, 证明和上述模型相比, 本文模型生成的图像与真实侧扫声纳沉船图像拟合程度更高, 拥有更好的清晰度、细节度和真实度以及更低的模式崩溃概率。

2.4.2 定性分析

图 8为5种模型对大尺寸、多数量和小尺寸3种具有典型代表的光学图像的转化图。

 

图8   5种模型进行光学图像转换侧扫声纳图像的效果图

 

图 8可以看出5种模型均基本实现了光学到声学的跨域转化, 完成了样本扩增。其中, 图 8(b)图 8(c)均不能很好地生成沉船的纹理特征以及背景出现了黑洞的情况; 图 8(d)虽然较好地生成了背景但是依然存在白条以及方框背景等情况; 图 8(e)在多目标和小尺寸目标纹理特征的生成中较前面几个模型有了提高, 但是却出现了边界的黑框, 可能是错把沉船目标的阴影特征学习成了背景信息; 再看本文方法, 相较于前面4种模型, 无论是在模型的纹理特征生成上还是背景特征生成上, 均取得了不错的效果。

2.4.3 目标探测模型上的性能

考虑到本文的目的是对匮乏的侧扫声纳水下目标图像进行样本扩增, 以期提高基于深度学习的目标检测模型的性能, 因此接下来本文使用基于深度学习的目标检测模型进行对比实验。目前目标检测模型非常多, 由于本文的目的在于验证扩增样本的有效性, 因此采用高速、轻量、易于部署的YOLOv5模型进行实验。

以沉船目标为对象, 设计了3组数据集分别对YOLOv5模型进行训练, 具体如表 3所示。数据集分别是只包含真实侧扫声纳数据、只包含本文模型生成的数据, 以及包含真实数据与生成数据, 并挑选100张真实的侧扫声纳图像对训练后的模型进行性能评估。其中, 生成的沉船数据均经过数据筛选, 剔除了扩增失败的图像。

表3   数据集中训练与验证集的组成

组别 真实的沉船图像/张 生成的沉船图像/张
A 500
B 2 000
C 500 2 000
验证 100
 

使用100张真实的侧扫声纳图像对训练完成的模型进行验证, 采用在目标检测评估领域广泛应用的查全率、查准率和平均精度来评价模型, 结果如表 4所示。从表 4可以看出, 使用本文方法生成图像进行训练的模型在查全率、查准率和平均精度值均高于仅使用真实侧扫声纳数据训练的模型, 证明了生成数据在模型性能提升中的起到了关键作用。使用了真实数据和生成数据训练的YOLOv5-C和仅仅使用生成数据训练的YOLOv5-B在各项评价指标差距不大, 证明了模型性能的提升原因主要是由于使用了本文方法生成数据, 或者说本文方法生成的图像满足了在真实度、多样性上要求。

表4   不同训练集训练的YOLOv5网络对真实图像的检测性能

训练集 查全率 查准率 平均精度(0.5) 平均精度(0.5∶0.95)
YOLOv5-A 79.12 84.14 80.43 46.21
YOLOv5-B 82.47 88.29 83.68 50.66
YOLOv5-C 83.22 88.65 84.71 51.14
 

使用训练好的3个模型对真实沉船侧扫声纳图像进行目标检测, 部分效果对比图如图 9所示。从图 9可以看出, 使用A、B、C 3组数据集训练后的YOLOv5模型均可以实现真实海底沉船目标的识别。但是对比图 9(b)图 9(c)图 9(d)可以发现, 仅仅使用数据集A进行训练的模型在沉船目标识别的置信度平均在65%, 且在定位精度上有待加强, 没有对沉船的阴影进行很好的识别, 在识别准确率上, 将3组图像中礁石目标错误地识别为沉船目标。而使用了本文扩增数据集B和C进行训练的模型在沉船目标阴影识别上效果更好, 且无论是在定位精度还是在置信度上均明显高于仅仅使用真实数据集进行训练的模型, 平均置信度均达到了90%。以上实验证明了使用本文方法进行样本扩增的图像与真实侧扫声纳图像具有更贴近的真实度、细节度与完整度, 且实现了提升基于深度学习的目标探测模型探测性能的目的。

 

图9   3种模型对部分真实侧扫声纳目标检测效果对比图

 

2.4.4 消融实验与评估

为了验证各个模块在本文模型性能中的作用, 采用控制变量法分别对CSA模块和LSGAN损失函数进行消融实验, 评价指标依旧采用FID、MMD和1-NN。设计了6组对照实验, 实验配置、训练数据集以及评估数据和第2.3节一致, 实验结果如表 5所示。对比组别1~4可以看出, 融入了注意力机制后模型生成图像的质量更高, 其中融合了通道注意力和空间注意力机制的组别4较仅使用了通道和空间注意力模块的组别2和3拥有更高的性能, 证明了本文提出的CSA模块对模型的有效性。对比组别5和组别1可以看出, 本文提出的LSGAN损失函数的优越性。对比组别6和组别4、组别5可以看出, 融合了CSA模块和LSGAN损失函数后模型的性能比仅使用单一策略的效果更佳, 对模型的整体性能提升起到了至关重要的作用, 体现了本文提出的方法的有效性。

表5   使用不同策略的GAN网络性能

组别 CSA模块 LSGAN FID↓ MMD↓ 1-NN↓0.5
通道注意力 空间注意力
1 136.52 0.211 0.91
2 132.95 0.169 0.81
3 133.01 0.152 0.80
4 126.84 0.131 0.77
5 130.98 0.134 0.78
6 123.12 0.102 0.72  
 

使用不同策略训练的6组模型对部分光学图像的转化效果如图 10所示。从图 10可以看出, 组别1生成的数据真实度最低, 对比组别2和组别1可以看出, 增加了通道注意力模块的模型在生成目标时能够挖掘更多的细节特征, 但是在背景特征生成上有待加强。对比组别3和组别1可以看出, 增加了空间注意力模块的模型在生成图像的背景时效果更优, 但是仍然存在背景黑洞的情况, 并且在目标细节特征的生成上效果一般。对比组别4和组别1可以看出, 采用了CSA模块的模型在目标细节特征以及背景特征生成上能力提升明显。对比组别5和组别1可以看出, 采用了LSGAN目标函数的模型较好地实现了目标图像的生成, 但是在背景的边缘仍然存在明显的方框, 显得不是特别的自然。对比组别6和组别1可以看出, 融合CSA模块和LSGAN目标函数的模型无论是在沉船目标的纹理、边缘等细节特征, 还是在背景特征上均表现良好, 生成了清晰度高、细节特征完整、真实感强的目标图像, 证明了本文方法的有效性。

 

图10   6组模型对部分光学图像的转换图

3 结论

针对侧扫声纳水下目标图像稀缺、获取难度大、成本高导致基于深度学习的目标检测模型性能差的问题, 本文结合光学域类目标数据集丰富的优势, 提出了一种基于CSLS-CycleGAN的水下目标侧扫声纳图像样本扩增方法, 设计了单循环一致性的网络结构, 保证模型的训练效率以及任务的专注度; 在生成器中融合CSA模块, 减少信息弥散的同时增强跨纬度交互, 在学习全局特征的同时关注目标的细粒度特征; 设计了基于LSGAN的损失函数, 提高生成图像质量的同时提高训练稳定性, 避免模式崩溃的情况。通过光学域船舶图像与侧扫声纳图像进行实验, 实现了目标光学图像与侧扫声纳图像的双域转化, 生成的侧扫声纳水下目标图像清晰度高、细节特征完整、真实感强, 达到了少样本的样本高质量扩增的目的, 很大程度上解决了基于深度学习的水下目标检测模型数据匮乏的问题, 提升了模型的检测精度, 为水下强代表性目标样本扩增以及高性能水下目标检测模型构建提供了一种新的思路。

 

声明:公众号转载的文章及图片出于非商业性的教育和科研目的供大家参考和探讨,并不意味着支持其观点或证实其内容的真实性。版权归原作者所有,如转载稿涉及版权等问题,请立即联系我们删除。
浏览量:0
收藏