SAR图像飞机目标智能检测识别技术研究进展与展望

创建时间:2024-04-22 17:56

源自:雷达学报

作者:罗汝, 赵凌君, 何奇山,计科峰,匡纲要

摘 要

合成孔径雷达(SAR)采用相干成像机制,具有全天时、全天候成像的独特优势。飞机目标作为一种典型高价值目标,其检测与识别已成为SAR图像解译领域的研究热点。近年来,深度学习技术的引入,极大提升了SAR图像飞机目标检测与识别的性能。该文结合团队在SAR图像目标特别是飞机目标的检测与识别理论、算法及应用等方面的长期研究积累,对基于深度学习的SAR图像飞机目标检测与识别进行了全面回顾和综述,深入分析了SAR图像飞机目标特性及检测识别难点,总结了最新的研究进展以及不同方法的特点和应用场景,汇总整理了公开数据集及常用性能评估指标,最后,探讨了该领域研究面临的挑战和发展趋势。

 

关键词

合成孔径雷达 / 目标检测与识别 / 飞机目标 / 深度学习 / 可解释人工智能 

1.   引言

合成孔径雷达(Synthetic Aperture Radar, SAR)是一种主动式微波遥感成像雷达,通过发射相干电磁波照射地表,再接收地表目标的散射回波来获取图像[1]。SAR弥补了光学成像的不足,可提供全天时、全天候的图像采集能力。近年来,随着SAR技术的快速发展,多平台(星载、机载和弹载)、多极化、多波段的SAR数据越来越丰富,空间分辨率可达亚米级[2,3],逐渐满足目标/地物精细化解译的需求,在目标侦察与监视、打击指示以及自然灾害响应等多个领域发挥着重要作用[4]。

自动目标识别(Automatic Target Recognition, ATR)是指从图像中检测和识别目标特征和型号[5]。其中,飞机是SAR图像解译关注的典型目标,及时准确揭示飞机目标数量、类型和分布情况,可为战场情报侦察、机场管理以及飞机的调度等提供重要信息,在军事和民用领域具有重要的应用价值[6]。

在深度学习技术被引入SAR ATR领域之前,研究者常采用林肯实验室提出的检测—鉴别—分类三级处理流程[7–9],如图1所示。这类传统方法结合了目标和场景的先验知识,具有良好的可解释性。然而,它们依赖人工设计特征和复杂的参数调优,特征表征能力弱,难以建立可靠的预测模型,算法鲁棒性和场景泛化能力差。

图  1  典型SAR ATR系统示意图

近年来,随着SAR成像质量的提升和信息的丰富,解译任务开始朝着更细粒度的方向发展,对智能化处理的需求更为迫切。深度学习不需要手动设计特征,而是自动处理复杂图像数据库,学习数据隐含的内部联系,具有较强的特征描述能力[10]。与传统方法相比,深度学习技术的引入显著提升了SAR ATR的性能。然而,对于飞机目标,其结构复杂,成像后的特征离散不连通,边缘轮廓不显著,细节不完整,容易漏检;飞机周围的廊桥等人造建筑物往往又形成强背景干扰。因此,SAR图像飞机目标检测识别仍存在特定的困难与挑战。近年来国内外学者也提出了一些针对性的方法,本文对这些方法进行了归纳总结,分析了各类方法的特点和存在的问题,最后对其后续研究进行了展望。

复旦大学郭倩等人[6]从是否采用目标散射特征的角度,总结了基于传统方法和深度学习方法的SAR图像飞机目标检测与识别研究进展。随着基于深度学习的通用目标检测识别算法的日益成熟,SAR图像飞机目标检测与识别数据集的相继发布,以及“天智杯”人工智能挑战赛[11]、“中科星图杯”国际高分遥感图像解译大赛[12]等遥感领域重大赛事的举办,SAR图像飞机目标检测与识别技术得到快速发展。为了使广大科研人员能够全面、清晰地了解SAR图像飞机目标检测与识别技术的研究现状,本文结合团队多年来在SAR图像目标检测与识别领域的研究积累以及所形成的理论体系,首先从SAR影像特征和电磁散射特性的角度,阐述了SAR图像飞机目标特性及其检测识别难点;随后,从检测和识别难点出发,对基于深度学习的SAR图像飞机目标检测与识别领域研究现状进行了深入调研与回顾,总结了不同方法的特点及应用场景;最后,探讨了该领域面临的挑战和未来的发展方向,并汇总了相关公开数据集和评估指标,以期为研究人员开发SAR专用网络、突破算法性能瓶颈提供一些参考和启示。

2.   飞机目标特性与检测识别难点

SAR图像目标特性反映了雷达成像机理、成像条件及目标自身固有特性,亦是研究者开展SAR解译任务的重要依据[13]。本节从SAR影像特征和电磁散射特性两方面分析了SAR图像飞机目标特性,并详细阐述了飞机目标检测识别的难点所在。

 

2.1   SAR图像飞机目标特性

SAR成像本质是目标散射特性空间到目标影像空间的映射[14]。图像特征的描述与建模有助于从背景中区分目标,并发现和挖掘目标的本质特征。描述图像的特征需要具备可靠性、区分性、独立性、低维等特点,以保证模型的准确性。

 

2.1.1   SAR影像特征

(1) 几何特征

几何特征包括结构特征、几何形状等。其中,结构特征反映了被描述目标的空间组织关系,是一种稳定的图像级核心内在特征,如在多源数据的利用方面,图像的灰度和纹理存在差异,而目标的空间结构特征往往被视为共性特征。飞机目标几何特征主要表现在结构的镜像对称性、部件配置和几何参数信息(机身长度、翼展宽度、发动机数量)等方面,可以作为先验信息,用于进行知识辅助识别。然而,对于轮廓复杂、特征离散的飞机目标,难以利用椭圆和矩形(常用于船只和车辆目标检测识别任务)等简单拟合模型,来准确表征飞机目标的几何特征。为此,国防科技大学陈玉洁等人[15]提出了一种基于可变参数化几何模型的SAR图像飞机目标特征提取方法,可实现飞机目标常见几何参数的估计,方位角平均误差仅为1.46°,机身长度和宽度的平均误差分别为2.97 m和4.85 m。中国科学院空天信息创新研究院高君等人[16]通过提取飞机零部件(如发动机和机头)和骨架结构等先验知识,获取飞机目标关键几何特征,可用于高分辨率SAR图像飞机目标识别与解译。窦方正等人[17]提出在高分辨率SAR图像中利用深度形状先验重建飞机目标,在包含两类飞机目标的真实数据上,重建精度为85.17%。图2展示了添加形状先验前后飞机目标的重建结果比对。

图  2  添加形状先验前后飞机目标重建结果比对[17]

(2) 灰度统计特征

SAR图像的灰度与地物的后向散射特性密切相关,其差异与目标的结构和表面材质等有关。飞机目标与背景的结构和材质上存在较大差异,在SAR图像上表现为不同的灰度值。传统的SAR目标检测算法正是基于目标的电磁后向散射特性和杂波背景的这种差异,代表性的恒虚警率(Constant False Alarm Rate, CFAR)方法对局部背景杂波的统计分布进行建模,再设置适当的虚警率检测目标[18]。然而,基于单一统计分布的CFAR算法,无法有效处理复杂场景下的飞机目标检测。武汉大学He等人[19]提出混合统计分布比单一统计分布更能有效地从背景中区分目标,设计了一种基于混合统计分布的多分量(Mixture Statistical Distribution based Multiple Component, MSDMC)模型。该模型使用根滤波器和部件滤波器组成的多分量模型来描述目标及其子部件之间的结构信息,并采用混合统计分布区分目标与背景。在戴维斯-蒙森(Davis-Monthan)空军基地TerraSAR-X图像上的飞机目标检测实验表明,MSDMC算法性能优于CFAR算法,但耗时较长。同时,与韦布尔分布、瑞利分布和对数正态分布相比,伽马分布更适合于高空间分辨率SAR图像中飞机目标的建模,它可以检测到飞机目标的大部分显著点,并有效抑制背景杂波。图3给出了基于伽马分布的CFAR飞机目标检测结果。

图  3  基于伽马分布的CFAR飞机目标检测结果[19]

(3) 纹理特征

纹理特征在SAR图像目标解译中是一种有效的鉴别特征。通常,对于高分辨率SAR图像,飞机目标是由孤立的强散射点组成的区域目标,具有较为丰富的显著性信息。由于特殊的成像机制以及目标材质、结构和后向散射特性的差异,飞机和机场内的建筑物、车辆等硬目标之间的差异往往体现在纹理特征上。图4展示了基于梯度纹理显著性的SAR图像飞机目标检测结果,可以提取出较为完整的飞机目标[20]。Dou等人[21]提出使用CFAR分割技术和局部梯度显著性来定位目标,获取候选切片,再利用Kullback-Leibler(KL)散度衡量候选切片与模板切片之间的特征相似性进行飞机目标识别,识别准确率达到了80.8%。

 

图  4  基于梯度纹理显著性的SAR图像飞机目标检测结果[20]

在某些成像条件下,当廊桥等人造目标的雷达波后向散射强度高于飞机目标时,削弱了飞机目标的散射强度和视觉显著性,造成飞机目标的纹理和结构不突出。此时,仅使用单一纹理特征进行预测的算法效果较差,多特征联合预测通常更有助于保证算法性能[6]。

 

2.1.2   电磁散射特性

散射特性包含了散射中心的相对位置、数量等信息,反映了目标的物理结构[13]。不同类型的飞机目标虽然有外形差异,但都是由机翼、尾翼、中央机身、机头和引擎等重要子部件组成的,也是SAR成像后飞机目标的主要强散射响应区域,如图5所示。在高频区,飞机目标散射特征是由一些孤立的散射中心组成的。每个散射中心对应于特定的电磁散射机理。文献[6,13]对飞机目标各子部件的主要散射机理进行了详细分析。

图  5  飞机目标部件结构

散射中心的相对位置由雷达回波中的局部峰值确定,与目标的物理几何、观测姿态角有关,与平移无关。虽然目标的散射特性会随着传感器参数(分辨率、极化模式、电磁波波长等)以及目标姿态等参数的变化而改变,具有姿态敏感性,但这种姿态敏感性具有一定的变化规律[13]。根据电磁散射理论和成像机理,挖掘其变化规律,建立强适应性电磁散射参数化模型,提取具有优越显著性和稳定性的散射特征,有效支撑目标场景分析、目标检测识别任务生成与最优化。文献[22]基于1 m分辨率的TerraSAR-X图像上进行了民用飞机目标散射分析实验,通过提取Boeing747飞机目标的显著点特征向量(对应散射区域极大值和物理强散射中心),采用包含两个松弛变量的模板匹配方法进行目标识别,识别率达80%。实验结果表明,在小角度间距内(至少5°范围内)能够有效识别飞机目标,且可以认为飞机目标显著点特征向量的变化不是十分敏感,具有一定的平移和旋转不变性。中国科学院电子学研究所Zhang等人[23]提出了一种基于典型结构的飞机目标主要散射中心特征建模方法,对飞机目标的细节特征进行建模。中国科学院空天信息创新研究院Fu等人[24]提出采用高斯混合模型(Gaussian Mixture Model, GMM)建模飞机目标散射结构特征,实现了基于模板匹配的飞机目标识别。图6展示了基于GMM的飞机目标散射结构特征建模结果。

 

图  6  基于GMM的飞机目标散射结构特征建模结果[24]

 

2.2   SAR图像飞机目标检测识别难点

小样本和目标的多尺度差异被认为是SAR图像智能解译中面临的共性问题。飞机、车辆、船只等是受到广泛关注的目标。相比车辆、船只等目标,飞机目标复杂的结构和散射机制使得目标特征离散,呈现为一些离散的散射中心,细节易缺失,难以完整检测(如图7所示)。同时,复杂的结构使其对方位角更加敏感,随着成像角度的变化,这些散射中心表现出不同的强度,使得神经网络难以提取有效的目标散射特征。飞机周围的金属设施和廊桥等产生的强散射,给目标的正确检测和分类带来了很大的干扰。以下是对SAR图像飞机目标检测识别相关难点的详细分析。

图  7  SAR图像飞机、车辆、船只目标示例

(1) 特征离散,难以完整检测

SAR图像上飞机是由各部件的强散射引起的亮像素和机身等光滑区域的弱散射产生的暗像素组成的。如图8所示,飞机目标特征离散,结构特征不完整,部件之间关联性较弱。通常需要联合SAR专家知识和光学图像对目标进行判读。此外,由于特征离散,现有基于深度学习的算法很容易对一个飞机目标生成多个预测框,难以完整检测。

图  8  SAR图像飞机目标示例

(2) 尺度多样、弱小目标易漏检

在SAR图像中,不同类型飞机的尺度差异或不同分辨率图像都会导致目标的尺度差异。如图9所示,面对目标的多尺度问题,使用固定感受野技术进行特征提取时存在一些问题。随着网络的加深,后向散射信息较弱或者小像素的飞机目标往往更容易被漏检。为了确保能够有效地检测识别弱小目标,需要更精细的网络结构设计。

 

图  9  尺度多样、弱小目标示例

(3) 姿态敏感,特征空间易混淆

由于成像方位角敏感,即使是同一型号的飞机目标在SAR图像中所呈现出的视觉外观、散射中心和几何轮廓也并不完全相同,造成了较大的类内差异。而不同型号的飞机目标却有可能具有非常相似的外观。例如,空中加油机KC-135是由大型运输机C-135改装而来的(如图10所示),具有很高的跨类相似性,在特征空间中形成一定的混淆。在民用领域,图11展示了6种民用飞机的光学和SAR影像,可以看出同型号飞机类内的散射特征差异很大,不同型号飞机目标之间的特征耦合程度较高。通常,算法难以准确定位和识别图像中高度相似的飞机目标。因此,准确表征目标显著且稳定的后向散射信息,学习更具鉴别性的类内语义特征和类间区分性特征,有利于提升算法的细粒度识别精度。

图  10  不同型号飞机目标外观相似示例(图中展示了来自Gaofen-3和HISEA-1成像的KC-135和C-135两型飞机)

图  11  6种民用飞机的光学和SAR影像示例

(4) 强背景干扰,难以有效鉴别

SAR与光学传感器在探测波长、成像机理方面存在本质差异,SAR图像解译往往更为困难。SAR图像上,机场内的建筑物、车辆以及飞机周围的一些金属设施极易引起类似飞机目标的强散射,这些复杂背景杂波在一定程度上造成视觉混淆,呈现为“所见非所知”的特点,难以准确定位和识别目标。如图12所示,机场廊桥垂直反射或二面角反射产生的回波较强,在SAR图像中表现为类似飞机目标的强散射高亮区,而停靠在廊桥附近的飞机目标成像较暗(亮度信息不显著),这对目标的正确检测和分类形成了较大挑战。

图  12  复杂背景干扰示例

(5) 小样本下,特征表征泛化弱

众所周知,深度学习算法在很大程度上依赖于大规模数据以获取高性能。然而,获取大规模、高质量、有标记的SAR图像飞机目标检测与识别数据是非常昂贵和困难的。一方面,高分辨率SAR图像的获取成本非常高,特定地理空间目标分布稀疏,使得涵盖感兴趣目标的图像数量非常少。另一方面,目标标签依赖于SAR解译专家手工标注,需要更多专家知识。因此,小样本下SAR图像飞机目标检测识别研究是一个值得关注的方向。

3.   SAR图像飞机目标检测与识别研究现状

近年来,卷积神经网络(Convolutional Neural Networks, CNN)凭借其强大的端到端特征提取能力,成为目标检测与识别领域的主流方法。根据处理阶段数和是否使用锚框,目标检测与识别算法大致可分为基于锚框的两阶段算法、基于锚框的单阶段算法和无锚框算法[25,26],如图13所示。其中,两阶段算法(如RCNN系列[27–30]等)采用生成候选区域+分类的思想,首先,获取图像中可能包含目标的区域作为候选区域;然后,由卷积神经网络对这些候选区域进行分类和回归,得到目标位置和类别预测。受益于从粗到细的两步式处理,这类算法具有较好的精度优势,但算法结构复杂,且由于候选区域生成机制耗时,实时性仍有不足。为了提高网络运行效率,研究者舍弃了候选区域生成过程,直接对输入图像采用CNN进行分类回归预测,形成了单阶段算法(如EfficientDet[31], SSD[32], YOLO系列[33–35]等)。这类算法结构简单、训练速度快、计算效率高,在实时场景中具备较大应用潜力。目前大多数单阶段算法和两阶段算法都是基于锚框的方式。在目标定位方面,由于预先加入了目标尺寸先验,基于锚框回归微调获取预测边界框,算法训练较为稳定,是目前发展较为成熟的主流技术。但锚框的选取依赖于训练数据中目标尺寸和长宽比分布的先验知识,此类算法也存在一些不足,如算法泛化能力不足(对小尺寸目标的检测准确率较差),锚框的优化与设计引入了大量超参数和计算量。针对上述问题,无锚框算法被提出,去除了预设锚框,直接预测目标边界框,大大减少了锚框优化所需的超参数和计算量,降低了模型复杂度,提高了模型的整体效率。其中,FCOS[36]达到了与基于锚框的单阶段算法相媲美的性能,引起了广泛关注。自此,无锚框算法研究逐渐成为目标检测与识别领域中极具潜力的方向之一。

图  13  基于深度学习的通用目标检测识别算法示意图

受益于在计算机视觉领域的成功,深度学习已被引入SAR图像飞机目标检测与识别任务,涌现了许多出色工作。目前检测识别工作仍采用经典的SAR ATR串行处理流程,即在大场景下对飞机目标进行智能检测,再对飞机目标切片进行分类识别。因此,本文以飞机检测识别难点为脉络,分别对基于深度学习的SAR图像飞机目标检测与识别的研究现状进行了梳理和分类。图14给出了对SAR图像飞机目标检测与识别技术发展的总结。

图  14  SAR图像飞机目标检测与识别技术发展总结

 

3.1   SAR图像飞机目标检测

 

3.1.1   基于机场定位与掩模技术的目标检测

SAR图像尺寸大,直接输入网络进行处理效率低。滑动窗口分割是减小图像尺寸的常用技术。斯坦福大学Uzkent等人[37]提出滑动窗口分割的计算量与图像的边长成正相关,在没有涵盖目标的窗口进行处理是对技术和资源的一种浪费。为了提高复杂大场景下SAR图像的处理效率,一些学者利用飞机目标一般停在停机坪/跑道区域的上下文信息,提出了机场定位-机场内检测飞机-机场掩模的处理流程,有效地缩减了处理范围,并避免引入不必要的背景信息[38–43]。但其过程不是端到端的,相对繁琐。而且,机场掩模作为一种滤除虚警的后处理技术,其提取精度和时效性也可能直接影响到算法整体效率和准确性。在此背景下,已出现关于机场目标的快速、高精度提取的研究[44–46]。国防科技大学赵琰等人[43]设计并集成了基于CNN的机场区域定位、基于语义特征的飞机目标检测、基于灰度特征的机场区域精细化提取3部分,实现了面向复杂大场景的飞机目标快速检测。

 

3.1.2   基于视觉显著性的目标检测

鉴于在SAR图像中飞机目标呈现为强散射亮点,研究人员提出将像素亮度作为视觉显著性先验,在SAR图像中快速粗略地定位感兴趣候选目标区域,减少复杂背景干扰。为了更好地匹配飞机目标的多尺度特性,王思雨等人[47]增加了多尺度检测改进了文献[48]所提的显著性预检测算法,实现了SAR图像中多尺度快速粗检测候选飞机目标,检测率提高了5.88%。随后设计并调优一个浅层CNN以实现对候选飞机目标的精确检测。基于上述研究基础,Diao等人[49]提出了基于显著性位置回归网络的SAR图像飞机目标检测方法,通过使用CFAR作为显著性预检测算法,提取飞机目标候选区域,改进了Fast R-CNN用于SAR图像飞机目标检测的性能,检测率相比原始Fast R-CNN网络至少提升了12.9%。实验结果表明,与选择性搜索(Selective Search)算法相比,CFAR算法可以更快速、准确地拟合飞机目标的尺度差异。

 

3.1.3   基于多尺度融合与注意力机制的目标检测

基于多尺度特征融合和视觉注意力机制的研究也是当前目标检测领域非常流行的一类方法。大多研究工作侧重于设计各种高效的多尺度特征融合模块[40,50–68],促进跨尺度信息交互,实现高层语义信息和低层位置信息的优势互补。在此基础上,结合多尺度预测,提高算法对SAR图像中不同尺度飞机目标的拟合能力。注意力机制类似于人脑视觉模式,它能够自适应地提取感兴趣区域,更专注于捕捉飞机目标的有效信息,减少背景杂波干扰。由于注意力机制涉及的参数量和计算量较少,因此,添加注意力机制并不会显著延长网络的运行效率。许多学者已经探索并应用注意力机制来提高深度神经网络的性能[40,41,53–68]。为了提取飞机目标的精细化特征,国防科技大学赵凌君等人从注意力机制与多尺度特征融合的角度精心设计了网络模型,提出了金字塔注意力空洞卷积网络[65]和注意力特征融合网络[66],加强了对飞机目标语义特征的提取与表征,获得了较好的SAR图像飞机目标检测结果。随后,他们提出了一种注意力特征细化与对齐网络[67],进一步提升了SAR图像飞机目标检测性能,AP0.5达到了94.1%,实现了具有竞争力的检测精度和速度。长沙理工大学Luo等人[68]提出了一种有效的双向路径聚合注意力网络,通过引入involution算子在大范围内建立飞机离散特征之间的关系,结合有效残差置换注意力模块,突出飞机目标特征,降低复杂背景干扰。相比基线YOLOv5s网络,该方法将检测率提升了5.73%。

 

3.1.4   基于散射特征与结构信息的目标检测

针对SAR图像中飞机特征离散造成的完整性检测挑战,一些研究者考虑描述目标与其部件之间的几何结构关系进行SAR图像飞机目标解译,主要包括几何结构先验、散射特征与深度特征的结合两方面。

几何结构先验方面,SAR图像上飞机目标机翼沿着机身成轴对称分布,主要呈现为“个”“十”“丁”字3种类型。He等人[69]提出一种分别检测飞机目标整体结构及其部件(机头和机尾)的并行网络,通过结合飞机目标的结构先验信息和最大概率判别约束,组合优化链接目标及其关联子部件,从而提高飞机目标检测结果的完整性。然而,该方法需要较高的图像质量和极其细粒度的部件信息,标签制作过程较为繁琐、耗时。

目标的散射特征也反映了目标的物理结构,有助于提高算法性能[70]。SAR图像中飞机目标是由若干个离散的强散射中心组成的,反映在图像域为局部峰值。徐丰团队[52,56,60]提出使用目标散射信息进行数据增强预处理,提高飞机目标在各种成像条件下的显著性,经过散射信息增强后的图像被输入精心设计的目标检测网络进行训练和测试,取得了令人满意的性能提升。不同于徐丰团队的工作,文献[71,72]在网络特征提取阶段结合目标散射特性,突出特征图中的显著点,抑制背景杂波,引导网络学习飞机目标特征。文献[71]设计了信息校正模块,采用级联的两个3×3卷积提取特征,sigmoid函数获取归一化的全局特征描述后,权重缩放函数将大于0.5(硬阈值)的值作为显著点进行增强,并抑制其他像素,通过残差连接融合原始输入特征,以捕获飞机目标重要特征。该模块的添加将AP和F1分别提升了4.1%和1.8%。实验结果表明,相比传统的注意力机制(CABM[73], SE[74], ECA[75]),结合目标散射特性的信息校正模块能更有效地突出重要特征,辅助算法进行飞机目标检测。文献[72]则从目标空间成像特性出发,设计了散射中心特征提取模块和自适应噪声抑制模块,提高了特征提取精度,准确地表征了飞机目标散射特征。相比基线Faster R-CNN网络,该方法将AP和F1分别提高了5.5%和3%。不同于信息校正模块一分为二的阈值处理方式,自适应噪声抑制模块先利用空间注意力机制聚焦于目标重要的空间信息,进一步结合网络学习的参数(软阈值)对特征图进行自适应加权,突出目标重要特征,抑制背景干扰。然而,上述方法没有充分利用目标散射信息中隐含的空间结构和语义关系。Kang等人[61]设计了散射拓扑关联模块,充分考虑散射点的空间位置分布和语义信息,在分类分支中增加了一条显著点置信度预测分支,选取置信度排名最高的20个显著点作为飞机目标的主要散射点,输入散射拓扑关联模块计算散射点之间的关系,并将其嵌入位置预测分支中,增强飞机目标散射拓扑结构,以应对飞机目标特征离散难以完整检测的挑战。该模块的添加将AP0.5和F1分别提升了2.44%和1.39%。

 

3.1.5   异源数据辅助下的目标检测

异源数据指从不同来源、不同方式获得的数据。异源数据辅助下的飞机目标检测研究主要包括仿真数据、多模态遥感实测数据的使用两方面。其中,多模态遥感实测数据是指来自不同传感器所获取的图像数据。光学和SAR数据以及不同卫星的SAR数据均属于异源多模态数据。在仿真数据使用方面,数据增强方法[47,49](如平移、对比度增强、加噪、小角度旋转等)和生成式对抗网络[76]是两种获取仿真数据的常用方法,以减少对实测SAR数据的依赖,提高数据集的完备性,被证明有利于避免过拟合并增强模型泛化能力。文献[76]提出多尺度生成对抗网络获取仿真样本,经人工标注后加入训练集,辅助网络进行飞机目标检测,检测率提升了4.1%。在多模态遥感数据使用方面,迁移学习技术能够利用在有充足训练样本的源域上获得的先验知识缓解目标域中样本限制问题。文献[62]提出使用车辆、船只等非同类型目标的SAR数据作为源域,获取的迁移效果优于光学飞机数据,更有利于提升小样本下SAR图像飞机目标检测性能。通常,光学图像的纹理结构清晰,但光学传感器探测的电磁波长短,不能穿透云层,使得在云雾遮蔽下的飞机检测识别困难。SAR能穿透云雾成像,但目标和场景的分析和解释更为困难。文献[77]提出了一种融合光学图像与SAR图像优势的多路径交互网络,用于云雾遮蔽下的飞机目标检测。相比基于单源数据的模型,该方法将AP0.5提升了20%。

 

3.2   SAR图像飞机目标分类/识别

由于欠缺高质量SAR图像飞机目标识别数据集,现有研究大多停留在飞机目标检测上,在识别方面的工作相对较少。随着图像分辨率的提高,目标型号的细粒度识别势必成为未来SAR解译的重要任务之一。本节总结了基于深度学习的SAR图像飞机目标分类研究现状,包括基于散射特征和深度特征的目标分类以及小样本条件下的目标分类。

 

3.2.1   基于散射特征与深度特征的目标分类

针对飞机目标的姿态敏感问题,Sun等人[78]将散射信息、目标姿态角和频率信息与网络学习过程相结合,提出了一种基于目标姿态角引导的元学习网络,用于SAR图像飞机目标分类。该方法提取的散射中心特征只是作为一种额外的监督信息引入网络来辅助学习目标的重要特征。文献[79]提出了全局实例级比对模块、质量感知平衡损失、边缘感知边界框细化模块以改善类间差异并促进类内紧凑性,在保持良好定位的情况下提高了飞机目标分类准确率。吕艺璇等人[80]提出以不同类型飞机目标的散射特征离散程度差异作为先验信息,根据聚类中心量化飞机目标的离散程度,设计了散射关联分类器,将离散因子嵌入到网络的自动学习过程中,引导网络更加关注类内离散差异大、类间离散程度相似的目标特征学习,以应对类间差异小、类内差异大的难识别问题。此外,该方法还设计了自适应特征细化模块,促使网络更加关注飞机目标的关键部件区域,抑制背景干扰,在SAR-ACD数据集上的分类准确率提升了3.42%。然而,上述方法并未充分利用散射中心的语义空间信息,而飞机目标不同部件的散射语义空间信息是有助于突出不同类型飞机目标之间的差异性,提升分类性能的。Kang等人[81]提出了一种基于图结构的散射拓扑关系特征建模方法,对飞机目标离散部件的空间关系和语义信息进行几何建模,有效减少了误分类。相比基线ResNet-34网络,该方法的分类准确率提高了3.9%,实现了良好的SAR图像飞机目标细粒度分类。

目标散射信息的利用主要是提取并建模飞机目标散射中心特征,引导网络学习鉴别特征,从而降低SAR成像姿态敏感的影响。飞机目标峰值特征可以采用Harris算法和局部八邻域像素极大值检测算法进行提取[52]。在散射结构建模方面,中国科学院空天信息创新研究院Pan等人[82]提出了一种基于种子生长的散射聚类提取方法,并利用散射聚类作为特征进行SAR图像飞机目标识别。该方法提取的是具有相似特征连接的目标区域,对噪声干扰具有较好的鲁棒性,但提取结果容易受到生长准则的影响。Harris-Laplace检测算法是基于局部窗口的灰度变化提取像素级点特征,具有尺度不变性和旋转不变性。Guo等人[56]提出使用Harris-Laplace算法提取强散射点,DBSCAN(Density-Based Spatial Clustering of Applications with Noise)算法进行聚类初始化,生成散射区域,采用高斯混合模型对提取的强散射点及其像素强度分布建模,获取飞机目标的散射结构特征。孙显等人提出在Harris-Laplace算法提取飞机目标散射信息后,使用9个聚类中心对散射点进行聚类,作为飞机目标特征的关键散射点,将其嵌入网络进行学习,可以较好地描述飞机目标的整体分布,同时兼顾网络运行效率[80,81]。

 

3.2.2   小样本条件下的目标分类

针对SAR飞机目标实测数据稀缺造成的小样本问题,主要有两种研究思路:一是基于计算机视觉领域的元学习策略的直接迁移应用;二是基于仿真数据的数据扩充,从数据量层面直接解决小样本条件下分类网络参数优化和网络泛化等问题。其中,元学习是基于已有目标类别数据的先验知识,快速学习并建立与新任务(新目标类别预测)之间的映射,提高算法的泛化能力。文献[78,80]结合元学习技术和精细的网络结构设计,应对小样本条件下SAR图像飞机目标分类问题,5-way 1-shot的准确率相比基线至少提高了2.8%。

基于数据量层面,高质量完备数据集的获取成本高,目标姿态敏感,使得小样本条件下训练的分类器泛化能力有限。仿真数据可以提高数据集的完备性,避免过拟合,增强模型泛化能力。除了传统的基于图像变换(对比度变换、亮度变换、锐度变换)的数据增强方法外,一些研究聚焦于利用电磁仿真计算和生成对抗网络获得仿真图像来辅助飞机目标识别。文献[83]提出一种基于散射分析和自注意力生成对抗网络,实现特定角度的SAR图像内插仿真以补充数据集中缺失的方位角数据。文献[84]提出了一种基于仿真数据的SAR图像目标识别方法,设计并级联了功能强大的去噪模型和基于CNN的多输出分类模型,实现了SAR图像去噪和分类的同时进行,飞机目标的分类准确率达到了96.2%。Liu等人[85]提出使用电磁仿真软件RaySAR[86]获取仿真图像,再利用深度生成网络CycleGAN[87]将仿真图像迁移到实测图像域中,使仿真更接近实测数据。相比基于实测数据训练的模型,将生成的仿真数据与少量实测数据混合训练后,B52和B707两型飞机的分类准确率提升了9.3%。类似的,文献[88]采用掩模融合的方法,将电磁仿真软件OpenSARSim[89]获取的仿真SAR图像与MSTAR数据库中的背景杂波进行融合,再结合生成对抗技术进一步提高仿真SAR图像的质量。最后,设计了分类实验验证了仿真图像与实测SAR图像的特征相似性,混合仿真图像与实测图像训练后,模型分类准确率提升了1.2%。图15展示了高质量仿真数据获取技术流程。

图  15  高质量仿真数据获取技术流程[88]

4.   公开数据集与评估指标

4.1节和4.2节对目前已公开发表的SAR图像飞机目标检测与识别数据集及常用性能评估指标进行了汇总整理。4.3节阐述了相关公开数据集上典型方法的对比与分析。

 

4.1   数据集

由于SAR图像数据的获取渠道较少,且缺乏通用的SAR飞机目标基准数据集对算法进行有效训练和评估,在一定程度上制约着飞机目标检测识别领域的研究。为此,本文收集了目前公开的SAR飞机目标数据集,以方便广大科研人员和学者开展研究。

(1) 实测数据

目前SAR图像飞机目标检测与识别领域公开的实测数据集,如表1所示,涵盖了TerraSAR-X, HISEA-1, Gaofen-3和无人机载SAR成像数据。由于这些数据集的发布时间为2022年,目前基于它们开展的相关研究工作较少。

表  1  SAR图像飞机目标检测与识别实测数据集   

(2) 仿真数据

由于种种原因,国外飞机目标的实测数据集鲜见报道,无法公开获取,大多数SAR ATR研究都是基于MSTAR[91]进行的。另外,深度学习需要大量数据学习目标特征,调优获取高性能预测。相比实测数据,仿真数据可以相对容易地以低成本快速获取更完备的数据集。研究人员通过建立感兴趣目标的3D模型,结合电磁仿真建模方法自动生成仿真数据,并从图像视觉质量评估和目标分类性能定性评估的角度验证仿真数据的有效性。其中,SAMPLE数据集[92]是基于MSTAR和Xpatch[93,94]软件获取的SAR仿真数据,被广泛用于SAR ATR研究。本文对相关文献中的飞机目标检测与识别数据集进行了汇总,具体如表2所示。

表  2  SAR图像飞机目标仿真数据集

 

4.2   评估指标

算法时效性和准确性是衡量算法性能的两个重要指标。通常,深层次的复杂网络可以实现较高的准确率,同时也存在计算资源和内存占用大、迁移和部署能力差、网络运行效率低的风险。因此,应根据不同的应用场景进行有效平衡。此外,在比较不同算法性能优劣时,硬件设施和相应的一些参数设置的统一是确保公平性的重要前提。

(1) 算法时效性

评估算法时效性的常用指标包括:(a)训练时间:在训练数据集上训练出一个性能良好的参数模型所需的时间;(b)FPS:算法每秒能处理的图像数量;(c)测试时间:算法处理每张图像所需的时间。

(2) 算法准确性

SAR图像飞机目标检测任务:精度(Precision, P)[64]、召回率(Recall, R)[64]、F1-score[64]、AP[61]被广泛用于评估算法的检测性能。精度是指算法正确检测到的目标数量与检测到的目标总数的比值。召回率是指算法正确检测到的目标数量与实际目标数量的比值。F1-score和AP则是通过考虑综合算法精度和召回率的表现来评估算法整体预测性能。此外,在传统SAR图像飞机目标检测识别领域,检测率(Detection Rate, DR)、漏警率(Miss Rate, MR)、虚警率(False Alarm Rate, FAR)也是被广泛使用的指标,与深度学习目标检测识别技术中精度、召回率的对应关系如下:

   (1)    

   (2)    

   (3)    

SAR图像飞机目标分类/识别任务:识别率(Recognition Rate, RR)[22],错误率(Error Rate,ER)[22],总体准确率(Overall Accuracy, OA)[81],混淆矩阵[81]和Kappa系数[81]是常用的算法性能评估指标。其中,识别率表示某类目标被正确分类的概率;错误率表示算法错误分类成某类目标的概率。总体准确率表示所有正确分类的样本数量与真实类别样本数量的比值。当各类别样本数量不平衡时,模型预测很容易偏向大类而忽略小类,导致总体准确率较高,但部分类别则完全无法被正确分类的情况。Kappa系数注重一致性检验,对“偏倚”较强的模型给予较低的评分,以缓解不同类别数量不平衡问题,从而综合评估算法的分类性能。具体计算公式如下:

   (4)    

   (5)    

   (6)    

   (7)    

   (8)    

其中,N表示测试样本中共有N类目标。TP  (True Positive)表示正确分类为第m类目标的数量。FP (False Positive)表示错误分类为第m类目标的数量,即虚警。GT  (Ground Truth)表示真实场景中第m类目标的数量。 e表示所有类别分别对应的实际数量与预测数量的乘积之和与样本总数的平方的比值。

 

4.3   不同数据集上典型方法的对比与分析

飞机目标数据的获取渠道较少,以往研究大多是基于自建数据集或仿真数据进行实验验证。由于所使用的数据集不尽相同,实验结果和指标无法进行直接对比。为此,本节重点比较了相关研究以及主流目标检测识别算法在公开数据集上的性能,为SAR图像飞机目标检测识别算法的性能评估提供基线。同时,从性能比较中获得的知识将为现有算法的性能改进以及未来算法的设计与开发提供参考。

(1) SADD数据集飞机目标检测性能分析

SADD数据集中背景复杂、存在大量小目标,且目标大小差异很大,是一个极具挑战性的目标检测数据集。图16展示了SADD数据集上主流检测网络的性能比较。Faster R-CNN[29], Cascade R-CNN[30], SSD[32], YOLOv3[33], YOLOX[34]和文献[62]算法的召回率都达到了90%,能够较好地检测数据中不同尺度的飞机目标。其中,两阶段处理算法Faster R-CNN, Cascade R-CNN得益于由粗到细的检测流程,精度、召回率和F1值方面均优于单阶段的SSD算法。单阶段算法SSD和YOLOv3具有良好的速度优势,但检测精度在所有网络中最差,分别为82.8%和85.1%,算法鲁棒性存在提升空间。YOLO系列以速度快、性能稳定而备受工业界青睐,无锚框YOLOX算法在检测精度和F1值上排名第一,召回率仅次于文献[62],在飞机目标检测任务上具备较大的应用潜力。文献[62]基于YOLOv3网络,结合SAR图像飞机目标特性分析,设计了尺度扩展与特征增强金字塔网络,丰富了特征表征能力,有效地提高了复杂背景下飞机目标的多尺度特征提取能力,其检测精度、召回率和F1值均显著高于YOLOv3,达到与YOLOX相近的检测性能。这也说明了结合SAR图像目标特性分析与深度学习的优势所在。

图  16  SADD数据集上主流检测网络性能比较

(2) SAR-ACD数据集飞机目标分类性能分析

SAR-ACD数据集分辨率为1 m,由4322幅C波段聚束模式成像的Gaofen-3数据组成,包含6个民用飞机类别和14个其他飞机类别。相比光学数据,SAR属于大数据小样本。文献[81]基于该数据集,比较了分别使用80%和50%训练数据时主流分类网络的性能,本文以图17所示的形式展示了上述两种条件下的性能对比,并进行了进一步的分析。在使用80%和50%训练数据时,GoogleNet[99]和VGG16[100]具有相对稳定且良好的分类性能。ShuffleNet-v2[101]和EfficientNet-B0[102]两个轻量级网络的分类性能优于ResNet-50网络。ResNet-18, ResNet-34和ResNet-50[103]网络的总体准确率和Kappa曲线呈“低-高-低”分布,说明在较少样本条件下,ResNet-18网络较浅特征表征能力较弱,而ResNet-50网络较深容易过拟合导致泛化能力下降。ResNet-34在平衡分类性能方面表现更好。类似地,当使用50%的训练数据时,AlexNet[104]和Inception-v3[105]的分类性能不如GoogleNet。在训练数据增加到80%时,AlexNet和Inception-v3的分类性能得到了显著提高,尤其是Inception-v3的分类性能优势明显,OA和Kappa排名第二,优于所有主流通用的分类网络,仅次于文献[81]。文献[81]结合了SAR成像机理和飞机目标拓扑结构特性,以及上下文注意力机制,关注目标的重要语义信息,有效提高了飞机目标的分类精度,分类准确率超过了80%。

 

图  17  不同训练数据使用率下主流分类网络性能比较

5.   未来发展与挑战

基于模型驱动的算法依靠专家知识来设计浅层模型,学习目标特征,算法可解释性强,但泛化能力差。基于数据驱动的算法能够自动提取更高级、抽象的语义特征,特征描述能力更强、性能更优,仍处于蓬勃发展时期,但对算力、数据消耗巨大,可解释性很弱。总结其发展趋势如图18所示。

图  18  SAR图像飞机目标检测识别算法发展趋势示意图

作为数据驱动的算法,高质量的大数据集在深度卷积神经网络中起着至关重要的作用。针对小样本条件下训练的模型泛化能力较弱的问题,一方面,可以利用电磁仿真软件和生成对抗网络生成多角度仿真数据,提高数据集的完整性,缓解不同类别目标样本不平衡等问题,发展基于仿真辅助的零样本/少样本SAR图像飞机目标识别。但需要注意的是,仿真数据与实测数据特征分布之间的域偏移问题,可通过结合域自适应等方法,减小仿真数据与实测数据的特征域差异,从而实现特征的有效迁移。此外,还可以充分利用多源多模态SAR遥感数据,结合微波散射机理分析和图像视觉语义的提取与挖掘(即微波视觉),开发电磁-AI感知算法[106]。SAR三维成像技术的发展也为基于SAR三维成像数据进行复杂环境下目标检测与识别提供了巨大潜力[107]。另一方面,深度卷积神经网络可以结合增量学习、元学习等技术,学习稳健特征,以应对复杂场景下飞机目标检测与识别。随着移动和边缘设备的普及,在资源受限环境下实时数据处理非常重要。未来,可以从计算量和访存量等角度出发设计和优化网络结构,构建实时高效、轻量级的目标检测与识别网络。

然而,面向开放环境,深度卷积神经网络的设计和实际应用部署仍受制于一些挑战。一方面,飞机目标姿态敏感,易受到来自机场建筑物和车辆的强背景干扰,当获取的标记图像质量较低时,深度学习模型的决策不确定性可能导致其对假目标赋予较高的决策置信度从而造成虚警,也可能对真实飞机目标赋予较低的置信度从而造成漏检。由于模型的黑盒特性,人类对模型决策缺乏直观的理解,无法人工对结果进行解释和修正,容易造成战场态势判断失衡、出现错误瞄准打击或对潜在威胁的应对不当,形成更大的决策安全风险。另一方面,模型故障诊断及排除过程中,受制于模型不可解释,研究人员需要反复试验,处理效率较低。同时,在设计开发高性能深度模型时,由于缺乏有效的特征选择指导,容易使用一些无关的特征描述算子,导致特征冗余或特征表征偏差,淹没飞机目标的重要特征,增加模型复杂度和计算时间,甚至导致网络的准确性、鲁棒性、泛化能力下降,仅在特定的任务/场景下具备良好检测和识别性能。

此时,模型解释与理解成为使深度学习模型决策透明的重要技术手段,有助于了解数据集特征如何影响模型输出、哪些特征有助于模型输出,以及不同地理空间区域上目标特征有何不同,辅助构建面向开放环境下高精度、强鲁棒的飞机目标检测识别模型。图19展示了开放环境下高精度、强鲁棒的飞机目标检测识别模型构建示意图。未来,可以重点关注以下3个方面:

图  19  开放环境下高精度、强鲁棒的飞机目标检测识别模型构建示意图

 

5.1   嵌入领域知识构建物理可解释模型—提升决策准确率

姿态敏感是SAR图像的重要特征,飞机目标存在较大的类内方差和较高的类间相似性,容易造成特征空间混淆,这对于算法性能严重依赖于训练数据的深度模型来说是极为不利的。通常,基于物理模型的先验知识(如SAR成像机理、成像条件、目标的物理散射特性、幅度和相位信息等领域知识)被认为具有清晰的可解释性,利用已有的SAR物理模型或专家解译知识引导深度神经网络进行自主学习,挖掘飞机目标本质特征,使网络结构自身具备明确的物理意义。但其应用还不够成熟,在基于深度学习的SAR图像飞机目标检测识别方法中,仅开展了一小部分结合飞机目标的散射特性的初步工作,而且这些研究都是基于幅度图像。对于SAR传感器而言,回波数据包含大量信息,其相位信息是其他传感器无法获取的,有利于更全面地理解SAR图像信息。SAR图像目标检测与识别系统的核心竞争力主要在于数据信息能力和信息认知能力[108]。结合电磁散射理论和信息提取与分析技术,基于SAR回波数据建立电磁散射参数化模型,提供散射中心与目标部件之间的物理层推理能力,建模更显著、鲁棒的目标拓扑结构,提升对目标的理解[109]。以此为基础,联合物理模型先验知识与基于数据驱动的深度学习模型,发展物理可解释深度学习技术(Physically eXplainable Deep Learning, PXDL)[110,111],将物理可解释性直接纳入网络结构,建立物理可解释深度模型,这有助于提高网络的预测准确性、可靠性,开发精确的目标检测与识别算法。

 

5.2   结合XAI算法建立可追溯问责模型—提高决策可信度

受益于强大的特征表征能力和端到端的预测架构,深度卷积神经网络在SAR图像飞机目标检测与识别领域具有广阔的应用前景。但也正是因为这种端到端架构,深度卷积神经网络经常被称为“黑盒”(即给定一个输入,模型输出一个决策),人们对模型内部运行机制和决策过程缺乏直观的认识和理解。由于模型缺乏可解释性来验证其决策的合理性,当应用于国防安全等关键环境时,人们对算法决策的可信度存在担忧。

可解释人工智能(eXplainable Artificial Intelligence, XAI)[112,113]以人类可以理解的方式解释深度模型学习到的知识或做出的决策。基于XAI算法发展可追溯问责模型,缩小深度模型和人类感知之间的语义差距,在辅助设计特征描述算子提取飞机目标鉴别特征方面具有重要意义。经过众多专家、学者的不懈努力,涌现了许多XAI工具,它可为研究人员实现模型结构设计与决策理解[114,115]、模型评估与数据选择[116]、模型剪枝[117]、特征分析[118,119]等方面提供依据和指导。同济大学郭炜炜等人[120]就SAR图像目标识别的可解释性研究进行了细致探讨。整体而言,目前基于XAI进行SAR图像飞机目标检测识别的研究相对较浅,基本处于初步探索阶段,未来还需要更多深入努力。

 

5.3   基于主动感知发展闭环交互模型—提升模型泛化能力

在模型决策感知层面,受实际场景变化引起的观测不确定性、目标姿态敏感以及缺乏准确的非合作目标参考数据等因素的影响,在有限样本上训练的SAR图像飞机目标检测与识别模型难以满足实际需求。强化学习在智能控制和医学图像分析[121]领域已经取得了较大的成功,并被证明在寻找最接近最优策略方面具有优势。在SAR图像目标检测领域,西安电子科技大学杜兰等人[122]提出结合强化学习策略实现自适应挑选候选框,优化了Faster R-CNN网络,有效减少了虚警,精度提高了5.3%。

未来,可以将图像解译任务巧妙地转化为强化学习行为或控制问题,充分利用人在环路(Human in the loop)技术优势,整合SAR解译专家先验知识,增强系统的认知能力和自适应学习能力,开发面向开放环境的闭环交互系统,不断提升算法性能。具体而言,将经过充分测试的SAR图像飞机目标检测识别模型作为SAR图像飞机目标检测与识别决策系统的学习基础。结合强化学习策略形成问答模型,实现模型输出预测向量与人类决策的融合,最大限度地提高模型正确分类的可能性、可靠性以及准确性。

在此基础上,结合智能体输出动作指导预测数据是否标记为经验数据,采用增量学习技术[123,124]训练飞机目标检测识别模型,构建自主学习模型。该模型能够独立于环境获取知识,学习飞机目标特征与应用场景多样性,持续探索和挖掘目标本质特征,通过自我更新和自我进化实现对相似飞机目标的差异化表征。随着任务与场景数据的不断积累,算法的精度和泛化能力不断提高,从而实现对不完整和不确定性观测数据进行稳定预测,形成一种SAR图像飞机目标智能解译动态学习新范式。

6.   结语

SAR作为一种有效的对地观测手段,具有高分辨率、全天时全天候图像采集的优势。同时,在战场情报侦察和民用机场管理方面,飞机目标的时空调度非常敏感。因此,基于SAR图像实时、准确地检测与识别飞机具有重要意义。深度学习提供了一种自动、智能化的图像处理方法,已成功地应用于SAR图像飞机目标检测与识别领域。本文对基于深度学习的SAR图像飞机目标检测与识别技术进行了较为全面的综述,详细阐述了SAR图像飞机目标特性与解译任务面临的困难和挑战,总结了最新研究进展、相关公开数据集和常用性能评价指标,并分析了未来的发展趋势,以期帮助相关研究人员快速建立起对SAR图像飞机目标检测与识别领域相对完整的认识,并对相关领域的研究起到促进作用。

声明:公众号转载的文章及图片出于非商业性的教育和科研目的供大家参考和探讨,并不意味着支持其观点或证实其内容的真实性。版权归原作者所有,如转载稿涉及版权等问题,请立即联系我们删除。

浏览量:0
收藏