基于改进YOLOv5s模型的红外弱小目标检测方法
作者:张建君, 陈玉丹, 刘玉玲, 张明明, 黄富瑜
摘 要
针对复杂背景下红外场景对比度低、特征不足、细节不清而导致的目标检测效率低的问题,在YOLOv5s模型基础上通过创建TCC(two-way convolution and Concat)模块并引入华为Ghost模块,提出了一种基于改进YOLOv5s模型的红外弱小目标检测方法。首先,结合红外图像的低级语义特征,采取二路卷积和多尺度思想创建了TCC模块,提升了特征提取的全面性;接着,为进一步简化网络结构、减少网络参数量,引入轻量化Ghost模块改进了SPP池化层和CSP2卷积网络;最后,以无人机为实验对象,构建了白天和夜间不同背景条件下的红外弱小目标数据集,实验验证了本文改进算法的有效性。结果表明:改进后的YOLOv5s模型在较少损失帧频的情况下,检测精度提升了1.34%,平均精度均值(mean average precision, mAP)提升了2.26%,优于YOLOv4-tiny和YOLOv7-tiny两种轻量化模型,并与YOLOv8s模型精度相当,但模型参数量仅为YOLOv8s模型的53%,完全可以满足嵌入式设备部署的需求。
关键词
目标检测 / 红外弱小目标 / YOLOv5s / TCC模块 / Ghost模块
引言
近年来,我国无人机尤其是小型无人机民用化产业发展迅猛,但由于缺乏监管,无人机抵近侦察、非法测绘、扰乱航空秩序甚至爆恐袭击等案例频频发生,严重影响了国家和社会安全[1,2]。2017年4月,成都双流机场发生多起无人机非法闯入事件,导致百余架飞机迫降或返航;2018年2月,河北唐某等人利用无人机对某地违规拍摄,导致民航多架次航班改航;2023年9月,南京PN6444航班遭遇飞鸟自杀式撞击,导致飞机发动机受损、机身震动。在学术界,将上述低空飞行(高度1 km以下)、速度慢(55 m/s以下)、尺寸小(雷达截面积小于2 m2)的目标统称为“低慢小目标”。诸如无人机、鸟群之类的低慢小目标管控难、侦测难、处置难,已成为非传统空中安全威胁的典型代表,如何有效应对低慢小目标的现实威胁已成为各国要地安防侦察领域研究的难点[3,4]。在低慢小目标侦测方面,红外侦测技术凭借其抗干扰能力强、目标检测概率高、穿雾透霾且昼夜可用等优势而成为低慢小目标检测技术研究的热点[5-7]。然而,受限于红外辐射成像机制,当目标距离较远时,红外目标呈现为点状的弱小目标,细节不清、特征不强,信噪比较低,给目标检测带来了极大挑战。
近年来,随着深度学习理论的不断发展,将深度学习应用于红外低慢小目标检测算法中取得了较好的效果[8]。基于深度学习的通常分为以R-CNN系列[9]为代表的两阶段检测算法和以YOLO系列[10]为代表的单阶段检测算法,相比而言,YOLO系列算法可兼顾高检测准确率和高检测速度,已被广泛应用到红外目标检测领域。文献[11]针对复杂背景下红外弱小目标检测问题,提出了一种基于YOLO-IDSTD的轻量化实时检测网络模型,实现了红外弱小目标准确又快速的检测;文献[12]利用深度可分离卷积替换YOLOv4模型中的普通卷积,设计了一种GPNet轻量型红外目标检测网络,平均检测精度提高2.5%;文献[13]通过增加浅层特征图、改进锚框、增强小目标等处理改进了YOLOv4模型,平衡了运行速度和检测精度,实现了低慢小无人机目标的实时检测;文献[14]将压缩-激励模块引入到YOLOv5算法中,显著提升了对无人机目标的检测性能。
上述YOLO检测算法虽然能较好地完成特定背景或数据集下的目标检测,但在用于本文研究时会遇到新的问题:1) 本文红外目标图像为超广角红外凝视相机采集的红外点状目标图像,语义特征信息更少;2) 与数据集中红外弱小目标相比,本文所研究红外弱小目标的尺度更小,检测难度更大;3) 在不同复杂背景下检测空中红外弱小目标时,当前算法检测误检率更高。针对上述问题,本文选取结构参数和计算量较少的单阶段YOLOv5s作为基础模型,通过创建TCC模块来提升特征提取的全面性,引入Ghost模块进一步优化网络结构,在保证检测实时性的同时减少了参数量,提高了检测精度。
1 YOLOv5s模型框架
作为一种单阶段目标检测模型,YOLOv5s在YOLOv4的基础上添加了一些改进算法,使模型的灵活性和速度有了大幅提升。YOLOv5s模型框架主要包括4个部分[14]:输入端(Input)、主干网络(Backbone)、颈部网络(Neck)和预测端(Prediction),如图1所示。
-
1) 输入端(Input):主要功能是检测图像的输入,该部分通常使用Mosaic数据增强、自适应锚框、自适应图像尺度缩放等操作来提高模型的训练速度和检测精度。
-
2) 主干网络(Backbone):实际上是一个在不同图像细粒度上聚合并形成图像特征的优质卷积神经网络,该部分通常由Focus切片结构、标准卷积层CBS(convolution Bn SiLu)、跨阶段局部网络CSP(cross stage partial network)、空间金字塔池化模块SPP(spatial pyramid pooling)等组成,在此将CBL(convolution Bn Leaky_relu)替换成CBS。
-
3) 颈部网络(Neck):采用特征金字塔网络FPN(feature pyramid network)和路径聚合网络PAN(path aggregation network)进行图像特征的聚合,进一步提升图像特征的提取能力。
-
4) 预测端(Prediction):主要是设置损失函数,通常采用GIOU_Loss为损失函数,同时通过非极大值抑制NMS(non-maxima suppression)来筛选目标框。
图 1 YOLOv5s模型结构
2 模型改进
针对红外弱小目标图像分辨率差、特征少、细节不清等问题,本文以YOLOv5s算法模型为基础,通过优化设计其网络结构,实现红外弱小目标的训练和检测。改进后的YOLOv5s模型如图2所示,主要改进内容包括:1) 采用二路卷积思想创建TCC模块,替换Backbone中的部分CBS模块,以保留更多的红外图像语义信息;2) 引入华为Ghost模块改进SPP结构和CSP2结构,减少网络参数量。
图 2 改进的YOLOv5s模型结构
2.1 TCC模块创建
红外图像主要表现为低级语义特征,红外弱小目标在图像中呈现为点状,无明显的形状和纹理信息。针对此问题,本文修改了YOLOv5网络Backbone中的CBS模块,采取二路卷积和多尺度思想创建了TCC模块,如图3所示,以进一步提升特征提取的全面性。
图 3 TCC模块结构
TCC模块的工作流程为:首先,取一半通道数的特征图,经过常规CBS模块得到降维的特征图;其次,待另一半通道数特征图最大池化后,进行步长为2的卷积操作,来降低图片的维度,得到一组特征图;最后,将两路经CBS模块和最大池化操作后的图像信息进行CONCAT拼接操作,再输入到1×1的卷积层中,进行不同通道信息的融合操作。
经TCC模块处理后,特征图像的语义信息能够有效地保留,这些信息再传入CSP1_X模块特征提取后,更加有利于目标特征的检测和提取。
2.2 引入Ghost模块的SPP结构和CSP2结构改进
2020年,针对主流卷积神经网络(CNNs)在中间特征映射中广泛存在的冗余问题,华为诺亚方舟[15]在CVPR2020上创新性地提出了一种分阶段卷积计算模块——Ghost模块,如图4所示。该模块分为普通卷积核廉价的线性运算两部分:首先,使用更少量的非线性卷积核对输入的特征层进行压缩,大幅减少运算量;其次,利用深度分离卷积,从上面生成的特征图中变换出冗余的特征信息;最后,将上面两步获取的特征图进行CONCAT拼接,以此来消除冗余特征,得到更加轻量化的网络模型。
图 4 Ghost Module结构
考虑到红外弱小目标检测中存在的特征少、干扰多的问题,特征提取网络不应太过复杂,为此本文将Ghost模块引入到SPP结构改进中,改进后的SPP结构如图5所示。具体过程为:先利用3个卷积和大小不同的最大池化层对Ghost模块得到特征图进行下采样,之后将各自输出结果进行拼接融合,并将其与初始特征相加,最后经过卷积操作,将输出恢复到同初始输入一致。
图 5 引入Ghost模块后的SPP结构改进
兼顾红外弱小目标检测的实时性要求,同时权衡参数量和计算量之间的关系,本文使用Ghost卷积替代Neck中CSP2_X模块的卷积网络,以减少整个网络的参数量,提高网络的效率,改进后的CSP2_X结构如图6所示。
图 6 引入Ghost模块后的CSP2_X结构改进
3 数据集与评价指标
3.1 数据集
本文所研究红外目标图像是超广角红外图像,由于网络上缺乏高质量公开的超广角红外弱小目标图像数据集,为此课题组利用搭建的超广角红外凝视相机采集构建目标数据集。该相机是一款非制冷氧化钒长波红外相机,成像方式为等距投影成像,焦距为7.2 mm,图像分辨率为640像素×512像素,像元尺寸为17 μm,响应波段为8 μm~14 μm,视场角为110°×82°。为包容更大空域的目标场景,等距投影成像会将物空进行变形压缩[16],并且越靠近视场边缘,成像压缩越厉害,这使得超广角相机采集的红外弱小目标图像与传统高斯相机采集的红外弱小目标图像存在明显的特征差异。
数据集构建的目标对象为不同距离处的多架次无人机目标,部分样本图像如图7所示。
数据集构建时,使用边界框工具LabelImg,并采用VOC格式进行标注,保存为XML格式,最终得到2个数据集。其中检测用数据集包含6 021张红外图像,识别用数据集包含7 343张红外图像。
图 7 部分数据集图像
实验训练测试中,Epochs设置为100,Batch_size设置为16,图像输入尺寸为640像素×512像素,具体实验平台及环境配置如表1所示。
表 1 实验平台及环境配置
3.2 评价指标选取
本文选取精确率(Precision)、召回率(Recall)、平均精度均值(mAP)、每秒处理帧数(FPS)、计算量(FLOPS)、参数量(Params)等指标[10,14,17]对模型改进效果进行全面客观的评价。
精确率(Precision)和召回率(Recall)是一对用来度量分类器精确程度的机器学习指标,前者指模型预测的所有目标中检测正确的概率,后者指所有真实目标中识别正确的概率,定义式如下:
(1)
(2)
式中:𝑇P为模型预测目标中真实目标的数量;𝐹P为模型预测目标中虚假目标的数量;𝐹N为实际为真目标但被模型预测为假目标的数量。
平均精度均值(mAP)是全面衡量模型目标检测精度的指标,定义式为
(3)
式中:𝑃AP为模型数据集中第𝑖个类别的精度平均值;𝑁为模型中所有𝐴𝑃的数目。
另外,每秒处理帧数(FPS)是目标检测算法每秒能够处理的图像数量,代表了模型的检测速度;计算量(FLOPS)则用于评估训练检测模型的技术复杂度;而参数量(Params)是指检测模型的参数量,用于评估对计算内存资源的消耗。
4 验证实验与分析
4.1 检测实验与分析
以白天、夜间晴空背景和白天多云背景下不同距离处的多架次无人机目标数据集为对象,开展目标检测实验,结果如图8所示。
图 8 YOLOv5s改进前后目标检测结果对比
其中,图8(a)、图8(b)、图8(c)依次对应3种背景下不同架次无人机目标的检测结果;各图中,左边列为原始图像,中间列为YOLOv5检测结果,右边列为本文YOLOv5改进后的检测结果。对图8的结果分析如下:
-
1) 从漏检情况来看,针对3幅图像中的多架次无人机目标,改进前的YOLOv5方法均出现了漏检,而本文改进后的YOLOv5方法检测出了全部目标,说明改进后的方法对不同背景下的红外弱小目标检测具有较强的适应能力。
-
2) 从目标尺度来看,在图示3个视频序列中,改进前后可检出的最小尺度分别为16个像素、10个像素,说明改进后的方法对不同尺度目标检测具有较好的鲁棒性。
-
3) 从置信度和检测概率来看,改进后的方法目标检测的置信度明显提高,检测精度提升了1.34%,mAP值提升了2.26%。
4.2 消融实验与分析
为了验证改进模型对红外弱小目标检测的有效性,设置了4组消融实验。其中,组1未引入TCC模块和Ghost模块,组2只引入了Ghost模块,组3只引入了TCC模块,组4同时引入了TCC模块和Ghost模块,结果如表2所示。
对比表2中第2行、第3行与第1行,在YOLOv5s模型中分别引入TCC模块和Ghost模块后,虽然FPS和FLOPS指标稍有下降,但3项精度指标和参数量均得到了改善;在YOLOv5s模型中同时引入TCC模块和Ghost模块后,虽然牺牲了一些检测速度,但在不影响实时性的前提下有效提高了检测精度,减少了参数量,降低了训练复杂度。
表 2 消融实验结果
4.3 对比实验与分析
为了验证不同YOLO模型对红外弱小目标的检测效果,同样选取图8中所建不同背景下红外弱小目标数据库,将本文YOLOv5s改进模型与改进前模型、YOLOv4-tiny模型、YOLOv7-tiny模型、YOLOv8s模型进行了对比实验,结果如图9所示。
图 9 对比实验结果
对图9具体分析如下:
-
1) 在精确率(Precision)指标评价方面,改进后的YOLOv5s模型分别优于YOLOv4-tiny模型和YOLOv7-tiny模型10.8%和2.32%,但稍逊于2023年最新推出的YOLOv8s模型。
-
2) 在召回率(Recall)指标评价方面,改进后的YOLOv5s模型效果最佳,相比YOLOv4-tiny模型、YOLOv7-tiny模型和YOLOv8s模型,Recall值分别提升了40.2%、9.1%、10.48%。
-
3) 在平均精度均值(mAP)指标评价方面,改进后的YOLOv5s模型与YOLOv8s模型相当,分别优于YOLOv4-tiny模型和YOLOv7-tiny模型18.62%和4.56%。
-
4)此外,通过考察参数量指标,本文改进后模型的参数量(Params)约为最新YOLOv8s模型的53.4%,但检测速度可满足实时检测需求。
综上可知,本文改进模型综合权衡了检测精度、检测速度、参数量和计算量等指标,在超广角红外弱小目标数据集上表现优异,可满足嵌入式设备实时性高概率目标检测的需求。
5 结论
本文通过更换卷积创建TCC模块、引入Ghost模块改进SPP结构和CSP2结构,提出了一种基于YOLOv5s模型改进的红外弱小目标检测方法,提升了检测精度,减少了网络参数量。消融实验和对比实验表明:改进后模型的参数量减少了10%,检测速度为68帧/秒,平均检测精度提高了2.26%,与最新YOLOv8s模型相当,但参数量仅为YOLOv8s模型的一半,说明改进后的YOLOv5s模型更适用于红外弱小目标的检测,可较好地移植到红外侦测设备的目标检测算法中。
声明:公众号转载的文章及图片出于非商业性的教育和科研目的供大家参考和探讨,并不意味着支持其观点或证实其内容的真实性。版权归原作者所有,如转载稿涉及版权等问题,请立即联系我们删除。