A Sonar Image Target Detection Method with Low False Alarm Rate Based on Self-Trained YOLO11 Model
-
摘要: 声呐图像目标自主检测作为水下无人系统的关键技术, 在实际应用中面临着虚警率高的挑战, 制约了其在水下无人系统中执行任务的质量和效率。为解决这一问题, 文中设计了一种基于YOLO11模型的水下目标检测方法, 为降低其虚警率, 提出采用通过在声呐图像上自训练深度学习检测器的虚警率检测方法。该方法依据声呐图像目标检测数据集自动生成代理分类任务, 通过预训练提高深度学习检测器对目标和背景特征的学习效果, 从而提升检测器对目标和背景的分辨能力,有效降低虚警率。实测结果表明, 在检测器置信各自取F1-score最大值对应的数值时, 文中方法训练得到的YOLO11检测器相较于传统的迁移学习方法,虚警率降低了11.60%, 且具有更高的召回率。该方法在不使用外部数据集的条件下,显著提升了深度学习检测器的泛化性, 为水下小样本目标检测场景提供了一种高效的自训练方式。Abstract: Autonomous detection of sonar image targets is a key technology for unmanned undersea systems, but it faces the challenge of high false alarm rates in practical applications, which limits the quality and efficiency of mission execution by unmanned underwater systems. In this paper, an underwater target detection method based on the YOLO11 model was designed, and a false alarm rate detection method by self-training a deep learning detector on sonar images was proposed to reduce the false alarm rate. This method automatically generated proxy classification tasks based on the sonar image target detection dataset and improved the deep learning detector’s learning of target and background features through pre-training, enhancing the detector’s ability to distinguish between targets and backgrounds and thereby reducing the false alarm rate. Experimental results demonstrate that when the detector’s confidence is set to the value corresponding to the maximum F1-score, the YOLO11 detector trained using the proposed method can reduce the false alarm rate by 11.60% compared to traditional transfer learning methods while achieving a higher recall rate. This method improves the generalization of the deep learning detector without using external datasets, providing an efficient self-training approach for underwater target detection scenarios with small sample sizes.
-
Key words:
- underwater target detection /
- false alarm rate /
- sonar image processing /
- deep learning
-
0. 引言
成像声呐是水下无人系统有效的探测载荷, 声呐图像目标检测可为水下无人系统提供目标位置、类别和尺寸等重要属性, 是水下无人系统技术体系的关键。近年来, 深度学习方法发展迅速, 在计算机视觉、自然语言处理、语音识别和目标检测等领域展现出巨大优势[1-3]。深度学习在图像物体检测领域取得的显著进步, 使得基于深度学习的声呐图像目标检测技术在国内外水下感知领域迅速成为备受瞩目的研究热点[4-7]。YOLO(you only look once)系列作为实时目标检测领域的开创性框架, 每一次迭代在基准数据集上的表现都逐步超越了前代, 而YOLO11[8]是该系列最新的发展成果。在水下目标检测领域, 许多学者基于YOLO系列进行了相关研究, 在准确性和计算效率方面取得了一定成就[9-11]。尽管如此, 出于对模型更准确、更快、计算效率更高的持续追求, 文中选择YOLO11用于水下目标检测, 以得到检测结果更精确的检测器。
在实际声呐图像检测任务中, 深度学习检测器普遍面临着高虚警率的挑战, 削弱了其在水下无人系统执行任务的质效。相比于光学相机, 声呐在成像过程中受到杂波、混响、船速及波束倾斜程度等各种因素的影响, 从而导致声呐图像目标信噪比、信干比和信混比较低[12-14]。因此, 在光学图像上表现优异的深度学习目标检测方法直接用于声呐图像时, 输出分类置信度不高。为提高召回率, 通常需降低深度学习检测器检测门限, 但同时也带来了较高的虚警率。高虚警率会严重制约水下无人系统在执行诸如导航、寻标及探测等关键任务时的效能。
降低深度学习检测器虚警率的方式主要有依靠后处理抑制[15-16]和提高检测器的泛化性、适应性[4-5,17-18]2种方式。后处理抑制是指通过引入专家知识对检测结果进行过滤。Palomeras等[15]提出了一种基于概率图的降虚警方法, 但该方法仅针对特定场景, 并且引入了更多信息, 虽然改善了虚警率高这一问题, 但对硬件和专业知识等要求过高, 并不普适。
提高深度学习检测器的适应性是指通过优化检测器设计和训练提高检测器对声呐图像的适应性, 以达到降低虚警率的效果。提高检测器的适应性通常有以下2种解决方案:
一是使用更大的数据集。水下检测领域中公开的声呐图像数据集十分缺少, 因此通常采用数据增强的方法对数据集进行扩充[17,19]。但声呐图像数据集往往规模较小, 数据增强对样本的过度学习容易造成过拟合。
二是优化检测器的模型。Zhang等[4]利用神经网络结构搜索, 针对声图数据集自适应地设计了声图检测器结构, Huo等[5]则在研究中对损失函数进行了修改。虽然能够在数据集质量不高的情况下实现虚警率的降低, 但该方法依赖于研究人员的专业经验, 且对不同场景的兼容性不高。
综上所述, 目前水下探测领域缺少具备通用性的低虚警率深度学习检测方法, 由此, 文中从数据本身和训练方法出发, 提出了一种基于声呐图像的自训练低虚警率训练方法: 无需引入外部数据集或对深度学习模型进行修改, 通过设置代理任务的方法更深入地学习目标与背景特征, 从而实现检测中虚警率的降低。同时, 文中采用该方法训练目标检测领域最新推出的YOLO11模型, 实现了在更高精度下的低虚警检测。
1. 国内外研究现状
深度神经网络模型复杂度高, 容易对训练数据过拟合, 尤其是在声呐这类小样本数据集上。为此, 通常使用转导迁移学习, 通常直接称之为迁移学习(transfer learning)将可泛化知识迁移到目标任务上, 以改善深度神经网络模型的泛化能力。
在这种研究背景下, 目前基于深度学习的声呐图像目标检测器也大都采用迁移学习的方式, 将ImageNet[20]等大型光学图像数据集上预训练的卷积神经网络(convolutional neural network, CNN)特征提取部分作为检测器的骨干网络, 并使用迁移的特征对声呐图像进行定位和分类, 如图1所示。
与深度学习识别算法广泛应用的水上场景不同, 水下目标检测通常使用声呐进行图像获取, 与光学相机相比, 图像的分辨率更低, 并且不能提供彩色图像[21]。除此之外, 目标的高光和相关阴影往往又是识别任务中算法特别关注的特征之一[22], 但在声呐图像采集过程中, 声波阴影根据声呐视角的改变会存在很大差异, 且受到多径反射的影响产生伪影, 这与光学图像是截然不同的, 如图2所示。这意味着基于光学RGB(red, green, blue)图像得到的预训练模型的特征提取部分所学习的特征在声呐图像上并不能很好地适配。
然而, 由于水下目标类型复杂, 声图成像受许多因素影响, 且声图目标样本库存在样本量小、类间样本量不均衡及目标声图质量欠佳等问题。这使得即便基于声呐图像训练得到预训练模型, 其泛化性能也很差, 在实际的声图测试数据上虚警率较高。虚警率作为目标检测任务中的常用指标, 反映了检测器将背景误判成目标的情况。由此, 当前深度学习检测模型在实际的声图测试数据中虚警率高, 其根本原因是深度学习网络对背景与目标的分辨能力不足。
因此, 文中考虑通过构建一个代理任务来对声呐图像中目标特征进行学习, 从而简化检测任务中深度学习网络对目标与背景特征的学习。
2. 基于自训练YOLO11的目标检测方法
2.1 深度学习检测器自训练方法
在图像识别领域中, 往往认为检测任务相比分类任务而言更为复杂, 因为检测任务不仅要对目标进行判别, 还需要对目标进行定位。为了使检测模型能够更好地学习各类目标与背景的特征, 从而降低检测器在实测数据上的虚警率, 文中将代理任务设置为一个分类任务, 一是因为分类任务相较于检测任务更为简单; 二是在分类任务中, 能够将背景单独划分为一个类别, 使深度学习网络能更好地学习背景与不同目标之间的特征差异。其中, 用于训练分类任务的数据集由检测数据集衍生得到, 整个检测器的训练过程, 包含代理任务的训练在内, 并不引入新的外部数据集, 为一个自训练过程。基于自训练的声图目标检测器的整体结构如图3所示。基于代理分类任务的深度学习目标检测器自训练方法主要分为3步。
1) 基于声呐图像检测数据集得到衍生的代理分类数据集。代理分类任务数据集的制作方式如图4所示。
为保证检测器测试的有效性, 衍生数据集中的声呐图像均来自于检测数据集的训练集与验证集部分。其中, 衍生数据集的训练集和验证集分别用于主干网络的训练和验证。这样保证了在使用衍生分类数据集进行骨干网络自训练时, 骨干网络的权重是直接从检测数据集的样本中学习得到的。
2) 使用代理分类任务预训练深度学习检测器的骨干网络。加载检测器的预训练模型, 将骨干网络的部分参数更换为代理任务中训练得到的分类网络的骨干网络参数, 并对骨干网络进行一定层数的冻结。
3) 检测器精调。在检测数据集上对检测器的权值精调, 最终训练得到虚警率更低的检测器。
2.2 YOLO 11模型
在目标检测领域中, 现有的主流算法主要分为以基于区域的卷积神经网络(region-based convolutional neural networks, R-CNN)和快速基于区域的卷积神经网络(faster region-based convolutional neural networks, Faster R-CNN)为代表的两级检测网络, 以及以单阶段多框检测器(single shot multibox detector, SSD)和YOLO系列为代表的单级检测网络。两级检测网络主要通过区域建议策略生成相应的感兴趣区域, 然后对边界框进行定位和分类后得到结果。而单级检测网络直接将检测任务视为回归问题, 通过深度卷积网络实现从原始图像输入到目标定位和分类输出的功能。因此, 在实时性方面, 单级检测网络优于两级检测网络。考虑到无人平台在执行水下检测任务时对模型实时性有着较高要求, 文中选择了单级的YOLO系列模型并基于文中所提出的低虚警检测方法进行实验。
YOLOv8[23]和YOLO11是Ultralytics在推出YOLOv5[24]后对YOLO系列的后续开发成果, 代表了实时目标检测技术的最前沿水平。YOLOv8引入了先进的骨干网络和颈部架构, 增强了特征提取能力, 并显著提高了目标检测的准确性。同时, YOLOv8还采用了无锚点的头部分割方法, 优化了对于实时应用至关重要的准确性与速度之间的平衡, 使其适用于包括传统目标检测和实例分割等多种任务。
YOLO11作为YOLO系列的最新版本, 是在YOLOv8的基础上融入了进一步的优化措施构建的, 有着更快的处理速度和更高的模型效率。YOLO11网络结构如图5所示, 其中SPPF(spatial pyramid pooling-fast)为空间金字塔快速池化层, 作为一种高效的特征提取和池化方法, 有助于提升模型对不同尺度目标的检测性能和实时性能。同时, YOLO11在架构中增加了C3K2和C2PSA组件, 2个组件的结构如图6所示。C3K2组件由YOLOv8中C2F模块改进而来, 新加入了一个可调节参数。当此参数设置为False时, 模块保持其原始的颈部设计, 功能与C2F相似; 当此参数设置为True时, C3K2转变为C3配置, 提高了模型处理特征的效率。而C2PSA组件则是在C2F的基础上进行了改进, 引入了极化自注意力机制(polarized self-attention, PSA), 使模型能够更好地关注输入特征中的空间信息。
与前代相比, YOLO11凭借其更精细的架构设计, 能够在参数更少的情况下实现更高的准确性。此外, YOLO11的平均推理速度比YOLOv10[25]快2%, 在实时性上也进行了优化, 使得YOLO11在要求苛刻环境中也能快速处理检测任务。
2.3 与现有方法比较
现今流行的检测器例如Faster R-CNN[26]、YOLOs[8]和SSD等为了在通用检测任务上取得高泛化性并加速训练过程, 都遵循了迁移学习“预训练-精调(fine-tuning)”的范式, 即任务中复用ImageNet等大型数据集预训练模型的特征提取部分, 并对其参数进行精调, 以此在测试数据集上取得较好的定位和识别效果。
在水下目标检测领域, 由于公开数据集的缺少, 且不同水域下获取的声呐图像之间目标样本存在差异等问题, 使用外部数据集进行预训练, 并不能自动获得更好的正则化结果。因此在使用流行的迁移学习范式对深度学习模型进行训练时, 需要根据经验对超参数进行选择, 以避免微调时过拟合。该问题最简单的解决方法是直接将检测模型在采集到的声呐图像数据集上进行自训练。但这会使得主干网络在训练时得到的反馈较弱, 模型注意力被分散。造成该问题主要原因是: 检测器在训练期间需要学习的参数过多, 同时又缺少预训练模型提供的初始权重。
因此文中设置一个分类任务作为代理任务, 为检测模型提供骨干网络的初始权重。其中, 用于分类任务训练的数据集由已有的检测数据集衍生得到。相对于迁移学习预训练的模型而言, 自训练的骨干网络提取的特征与检测任务更加匹配。在检测器训练过程中, 可以在加载流行预训练模型时, 直接继承代理任务中训练得到的骨干网络权重, 之后只需要对冻结的骨干网络之外的剩余参数进行微调。
将文中方法与在光学图像领域中流行的“预训练-精调”迁移学习范式相比, 如图7所示。文中提出的训练方法优势十分明显, 由于衍生分类数据集不仅包括目标样本, 还提取了检测数据集中的目标背景图像, 在这样的数据集上学习到的骨干网络权重对目标和背景的辨识能力更强。而骨干网络权重的直接继承也使得目标任务的训练不再需要根据经验进行超参数的精挑细选, 使训练过程变为更为简单。
3. 评价指标
目标检测任务中, 为判定检测得到的边界框是否有效框住目标(即该边界框是否检测到目标), 有研究者提出了交并比(intersection over union, IoU)这一概念, 计算的是预测框
$ {B_{{\mathrm{pred}}}} $ 与真实框$ {B_{{\mathrm{real}}}} $ 二者的交叠率, 其表达式为$$ {A_{{\text{IoU}}}} = \frac{{{B_{{\mathrm{pred}}}} \cap {B_{{\mathrm{real}}}}}}{{{B_{{\mathrm{pred}}}} \cup {B_{{\mathrm{real}}}}}} $$ (1) 文中在测试集上进行检测任务时, 一般将IoU的阈值设置为0.5, 将IoU<0.5的检测结果认为是预测错误的(False), 反之则为预测正确(True)。一般将目标作为正样本, 为阳性(Positive, P), 背景则作为负样本, 为阴性(Negative, N)。因此, 当检测结果为阴性时, 若该结果正确则称为TN, 反之则为FN, 即漏检。当检测结果为阳性时, 若该结果正确则称为TP, 反之称为FP, 即虚警, 文中虚警率的计算方式为
$$ {P_{fa}} = \frac{{{P_{FP}}}}{{{P_{TP}} + {P_{FP}}}} $$ (2) 对于检测器的训练, 常用平均准确率(average precision, AP)来对训练结果进行比较。当数据集中存在多类目标时, 则采用所有类别AP的平均值(mean of average precision, mAP)进行评价, 一般会根据IoU取值的不同计算mAP@0.5和mAP@0.5∶0.95。其中, mAP@0.5指IoU为0.5情况下的mAP, mAP@0.5∶0.95指在区间[0.5,0.95]以0.05为步长依次取值作为IoU阈值情况下, 各个mAP的平均值。
除此之外, F1-score也是研究者们关注的重要指标, 它综合考虑了检测器检测出全部目标的能力和正确检测出目标的能力, 能够较为全面地对检测器进行评价, 其计算方式为
$$ {F_1} = \frac{{2{P_{TP}}}}{{2{P_{TP}} + {P_{FP}} + {P_{FN}}}} $$ (3) 4. 实验与分析
4.1 数据准备
利用深度学习方法基于声呐图像进行自动目标识别, 是当前水下识别领域的热门研究方向。但受限于水下目标的声呐图像采集较为困难, 且公开数据集较少的现状, 使得在光学图像中表现良好的诸多深度学习模型在迁移到声呐图像上进行任务处理时, 得到的结果并不理想, 主要体现为虚警率高、准确率低。一方面, 当前主流的深度学习检测方法都依赖于大规模的数据集, 而这正是声呐图像检测领域所缺少的; 另一方面, 光学图像与声呐图像在成像机理上的差异, 使得许多基于光学图像数据集训练得到的预训练模型, 直接应用在声呐图像数据集上时, 并不能取得很好的效果。
文中通过实际采集到的数据建立了一个声图目标检测数据集。数据集中的声呐图像由合成孔径声呐Mybro SAS以240 kHz频率在2023年于大连采集得到, 其中包含了6类目标, 分别为油桶、矩形、截锥、球、轮胎和类水雷, 如图8所示。除目标以外, 该数据采集场景下包含了浅海混响、礁石及部分人造物, 这些目标的声呐图像易引发目标检测算法的虚警, 适用于评测深度学习算法的虚警率。
数据集中所有图像都进行了人工标注, 标注文件为适用于YOLO的标注格式, 文件格式为txt, 包括边界框的图像坐标和目标类别, 可以快速部署用于目标检测任务。数据集包含了91张大小为
8700 ×640 像素的合成孔径侧扫声呐图像, 按照7∶2∶1的比例划分了训练集、验证集和测试集。之后, 对声呐图像按照0.5的步长进行了裁剪, 剪裁后图像大小为检测任务中常用的640×640 像素, 图像文件为常用的JPG文件。训练集与验证集中目标类别数量分布与尺寸分布情况如图9所示。可以看出, 该声呐数据集虽然涵盖了6类水下目标, 但是目标类间分布不均衡, 主要体现在球类目标过多, 类水雷目标过小。造成该情况的主要原因: 一是在投放过程中, 球目标数量多于其他目标, 导致采集到的球类目标过多; 二是在采集过程中, 由于航迹规划问题, 类水雷目标靠近侧扫合成孔径声呐的扫描盲区, 导致该类目标在某些角度成像结果中丢失, 造成该类目标样本过少。
4.2 实验结果
实验在RTX3090平台上完成, 在采用“预训练-精调”方法进行训练时, 训练轮次为300次, 批次为8个, 输入图像尺寸为640×640像素。首先在衍生分类数据集上对YOLO11分类模型进行训练, 得到预训练权重; 然后进行检测器的训练, 训练过程中先加载YOLO11提供的预训练检测模型, 再加载代理任务中得到的骨干权值, 并冷冻骨干网络进行训练, 训练轮次为300次, 批次为8个, 输入图像尺寸为640×640像素, 冷冻参数层数为6层。
为便于讨论, 将YOLO11模型在“预训练-精调”和文中训练方法下得到的检测器分别称作检测器A和检测器B, 使用这2个检测器在包含了6类目标(共74个)的测试集上进行测试, 检测结果如图10所示。当检测结果与标注之间的IoU≥0.5时, 认为该定位框检测到了目标, 为红色; 否则视为虚警, 为黄色。值得注意的是, 当多个定位框重复检测到同一目标时, 只选择多个定位框中置信度最大的一个框作为检测结果, 该定位框为红色, 其余定位框被认为是虚警, 标为黄色。
记录置信度在区间[0.1, 0.8]中以0.1为步长依次取值时的检测结果, 其中不同检测器在测试集上的虚警率表现如图11所示。可以看出, 检测器在测试集的检测结果中虚警率都随着置信度的提高而降低。
按照文中方法训练得到的检测器B在虚警率上有着较好表现, 在实验的置信度区间内, 都呈现出比检测器A更低的虚警率。结果证明, 相比于当前流行的训练方法, 文中提出的训练方法能够得到实现更低虚警率检测的检测器。除虚警率外, 实际任务中研究者们也关注检测器对目标的漏检情况。因此, 文中也将2个检测器在不同置信度条件下的漏检率作了简单对比, 结果如图12所示。
可以发现, 随着置信度的提升, 2个检测器的漏检率都在逐渐上升。其中检测器B在低置信度时, 漏检率低于检测器A; 检测器A在高置信度区间漏检率比检测器B更低。一方面, 这是检测器A牺牲虚警率, 生成大量检测框得到的; 另一方面, 检测器B在测试集上产生较多虚警, 是因为部分检测框未满足IoU≥0.5这一条件, 而这些检测框置信分数较高, 因此在高置信度下得以保留。为了更直观地体现这一问题, 文中绘制了2个检测器在置信度区间内的漏检率-虚警率曲线, 如图13所示。
从图13可以看出, 检测器A虽然在高置信度条件下有着较低漏检率, 但这是以更高的虚警率为代价的。研究者希望在实现低虚警的情况下尽可能地降低漏检率, 在图13中曲线越靠近原点, 越接近这一期望, 当一条曲线完全低于另一条时, 说明得到该曲线所对应的检测器检测性能更优。在大多数情况下, 检测器B的曲线都低于检测器A的曲线, 因此可以认为检测器B在大多数情况下可以展现出比检测器A更好的检测性能。而对于检测器B高于检测器A的部分, 认为是由于检测器B检测框与标注框之间IoU过低导致的。导致这一情况的产生除了网络对目标的定位不够精确以外, 人工标注目标带来的多义性也是原因之一。在人工标注声图目标的过程中, 标注者对于不同图像中同类目标的标注框尺寸往往存在手动标注的偏差, 这一偏差在油桶这类难以界定边界的目标上尤为明显。对于这一问题的改善, 将在未来的工作中进行深入探讨。
4.3 泛化性分析
深度学习方法应用于水下目标检测时, 小样本约束下的模型在训练过程中容易发生过拟合, 从而导致模型泛化性能较差。过拟合的出现是模型过度学习训练样本中的细节与噪声, 把训练样本自身独有的一些特点当作所有潜在样本的共性, 导致了泛化性能的下降, 以至于模型在新的数据上表现较差。一般在模型过于复杂且样本量不足, 或训练集与验证集特征分布不一致时, 容易出现过拟合。为了避免过拟合, 文中在模型上选择了YOLO11中的轻量级模型YOLO11n, 该模型参数量(params)为2.6×106, 浮点运算次数(floating-point operations per second, FLOPs)为6.5×109。在数据上, 文中采用的自训练方法中衍生数据集来自于检测任务训练集, 保证了检测任务中验证集与训练集的统计相关性不会受到影响。在训练过程中, 设定早停训练观察的轮次为100, 如果100轮精度没有提升, 模型会直接停止训练。为了更直观地展现出检测是否过拟合, 将检测器在训练集和验证集上的表现做了简单对比, 如图14所示。
可以发现, 文中方法训练得到的检测器B的检测表现在测试集与训练集上的差异更小。为了进一步探讨2个检测器的泛化性能, 让其在添加了噪声密度为0.1的椒盐噪声的测试集上进行检测。考虑到加噪后检测难度增大, 设置当预测框和标注的IoU≥0.25时, 目标被认定为被检测。以0.1为步长, 记录检测器在置信度区间[0.1, 0.7]内的虚警和漏检表现, 如图15和图16所示。
观察检测器的虚警率和漏检率变化, 可以看出检测器B有着更低的虚警率和更高的漏检率。但在置信度达到0.3后, 检测器B虚警率降为0, 而检测器A却始终存在虚警。2个检测器的漏检率-虚警率曲线如图17所示。虽然检测器B有着更高的漏检率, 但当2个检测器漏检率相同时, 检测器B几乎有着比检测器A更低的虚警率。可以得出在加噪条件下, 检测器B能够更精确地分辨出目标和背景, 在绝大多数召回率相同的情况下, 有着更低的虚警, 进而体现出更好的泛化性能。
4.4 评价指标分析
除了对2个检测器在测试集上的表现进行分析以外, 文中也对目标检测算法中常用的评价指标进行了比较, 其中mAP结果如表1所示。不论是mAP@0.5还是mAP@0.5∶0.95, 使用文中方法进行训练得到的结果均低于“预训练-精调”结果, 相较于“预训练-精调”方法分别降低了6.51%和9.07%。
表 1 检测器mAP对比Table 1. mAP Comparison for Detectors训练方法 mAP@0.5 mAP@0.5∶0.95 “预训练-精调” 0.799 0.441 文中方法 0.747 0.401 为了综合考虑检测器检测出全部目标的能力以及正确检测出目标的能力, 文中对F1-score进行了比较。在实际检测任务中, 往往会参考F1-score在不同置信度上的大小来进行检测阈值的选择, 阈值确定后F1-score为一固定常数。因此文中只选取了F1-score的最大值进行比较。假设F1-score取得最大值时对应的置信度为T, 文中还比较了在该置信度下不同检测器在测试集上的虚警率表现, 并与该检测器的平均虚警率进行了对比, 结果如表2所示。
表 2 检测器F1-score与虚警率对比Table 2. F1 score and false alarm rates comparison for detectors训练方法 F1-score $ {P_{f{a_\_T}}} $ $ \overline {{P_{fa}}} $ T “预训练-精调” 0.78 0.5366 0.4753 0.231 文中方法 0.67 0.4744 0.4201 0.237 F1-score取值范围在区间[0,1]内, 其值越接近1, 代表模型在准确率和召回率上的表现越理想, 越接近0, 表示模型在准确率与召回率中至少有一个指标非常差。对比2个检测器的F1-score, 检测器B的F1-score最大值相比检测器A低了14.1%。
对比2个检测器在置信区间[0.1, 0.8]上以0.1为步长测试得到的平均虚警率
$ \overline {{P_{fa}}} $ , 检测器B相比检测器A降低了11.60%。一般来说, 在2个检测器取各自F1-score最大值所对应的置信度T时, 检测器都能表现出各自在兼顾虚警与漏检条件下最好的检测性能。因此, 比较此时各个检测器的虚警率$ P_{fa{\underline{ }\_T}} $ 是有意义的。从表2可以看出, 检测器B有着更低的虚警率, 相比检测器A降低了11.60%, 此时检测器B漏检率为0.4533 , 检测器A漏检率为0.4865 。这说明文中的训练方法并非只是单纯实现了虚警率的降低, 而是能够在兼顾目标召回率的情况下, 对虚警率进行改善。5. 结束语
文中使用一种自训练的声图目标检测方法, 结合目标识别领域最新的YOLO11模型, 实现了水下目标的低虚警检测。该方法通过设置分类代理任务来训练检测器骨干网络参数, 对目标与背景特征进行学习, 并在检测器训练中兼顾了流行预训练模型参数与声呐图像特征提取部分参数。最终在不使用外部数据集产生更多训练成本的条件下, 检测器置信度取各自F1-score最大值处所对应值时, 文中方法训练得到的YOLO11检测器有着更高的召回率, 对比“预训练-精调”方法得到的检测器虚警率降低了11.62%。在加噪声条件下, 文中方法得到的检测器有着更好的虚警率表现, 当召回率在
0.2027 以内时, 能够实现无虚警检测。但文中的研究仍有局限性, 主要体现在: 1) 在声呐图像采集过程中, 受限于硬件条件, 导致某些目标样本过少, 数据集样本不均匀。这使得在检测器训练过中, 不同类别对模型的反馈权重存在差异, 会出现检测器在不同类别上的检测性能差异较大的情况; 2) 为了追求训练过程的简单快捷, 未引入更多提升泛化性能的方法, 也未对多种模型进行试验。基于以上不足, 未来研究将基于以下方向展开, 一是针对数据集中目标样本不均匀的平衡方法, 提出有效且简便的图像预处理方法; 二是使用文中方法训练更多种类的模型, 并在此过程中探讨各类提升泛化性能方法对性能的提升效果。
-
表 1 检测器mAP对比
Table 1. mAP Comparison for Detectors
训练方法 mAP@0.5 mAP@0.5∶0.95 “预训练-精调” 0.799 0.441 文中方法 0.747 0.401 表 2 检测器F1-score与虚警率对比
Table 2. F1 score and false alarm rates comparison for detectors
训练方法 F1-score $ {P_{f{a_\_T}}} $ $ \overline {{P_{fa}}} $ T “预训练-精调” 0.78 0.5366 0.4753 0.231 文中方法 0.67 0.4744 0.4201 0.237 -
[1] LAW H, DENG J. CornerNet: Detecting objects as paired keypoints[J]. International Journal of Computer Vision. 2020, 128(3): 642-656. [2] BARHOUMI C, BENAYED Y. Real-time speech emotion recognition using deep learning and data augmentation[J]. Artificial Intelligence Review. 2025, 58: 49. [3] SHAO Y, ZHANG D, CHU H, et al. A review of YOLO object detection based on deep learning[J]. Journal of Electronics and Information Technology, 2022, 44(10): 3697-3708. [4] ZHANG P, TANG J, ZHONG H, et al. Self-trained target detection of radar and sonar images using automatic deep learning[J]. IEEE Transactions on Geoscience and Remote Sensing, 2022, 60(1): 1-14. [5] HUO G, WU Z, LI J. Underwater object classification in sidescan sonar images using deep transfer learning and semisynthetic training data[J]. IEEE Access, 2020, 8: 47407-47418. doi: 10.1109/ACCESS.2020.2978880 [6] WILLIAMS D. P. Underwater target classification in synthetic aperture sonar imagery using deep convolutional neural networks[C]//2016 23rd International Conference on Pattern Recognition(ICPR). Cancun, Mexico: ICPR, 2016: 2497-2502. [7] WANG X, JIAO J, YIN J, et al. Underwater sonar image classification using adaptive weights convolutional neural network[J]. Applied Acoustics, 2019, 146: 145-154. doi: 10.1016/j.apacoust.2018.11.003 [8] JOCHER G, QIU J. Ultralytics YOLO11[CP/OL]. (2024) [2025-01-30]. https://github.com/ultralytics/ultralytics . [9] LI Z, CHEN D, YIP T, et al. Sparsity regularization-based real-time target recognition for side scan sonar with embedded GPU[J]. Journal of Marine Science and Engineering, 2023, 11(3): 487. [10] CHEN Z, XIE G, DENG X, et al. DA-YOLOv7: A deep learning-driven high-performance underwater sonar image target recognition model[J]. Journal of Marine Science and Engineering, 2024, 12(9): 1606. doi: 10.3390/jmse12091606 [11] ZHENG K, LIANG H, ZHAO H, et al. Application and analysis of the MFF-YOLOv7 model in underwater sonar image target detection[J]. Journal of Marine Science and Engineering, 2024, 12(12): 2326. [12] KARIMANZIRA D, RENKEWITZ H, SHEA D, et al. Object detection in sonar images[J]. Electronics, 2020, 9(7): 1180. [13] 王闰成. 侧扫声呐图像变形现象与实例分析[J]. 海洋测绘, 2002(5): 42-45. doi: 10.3969/j.issn.1671-3044.2002.05.011WANG R C. Analysis of distortion phenomena and case studies in side-scan sonar images[J]. Hydrographic Surveying and Charting, 2002(5): 42-45. doi: 10.3969/j.issn.1671-3044.2002.05.011 [14] HOŻYŃ S. A review of underwater mine detection and classification in sonar imagery[J]. Electronics, 2021, 10(23): 2943. [15] PALOMERAS N, FURFARO T, WILLIAMS D P, et al. Automatic target recognition for mine countermeasure missions using forward-looking sonar data[J]. IEEE Journal of Oceanic Engineering, 2022, 47(1):141-161. [16] SONG Y, HE B, LIU P. Real-time object detection for AUVs using self-cascaded convolutional neural networks[J]. IEEE Journal of Oceanic Engineering, 2021, 46(1): 56-67. doi: 10.1109/JOE.2019.2950974 [17] MA Q, JIANG L, YU W, et al. Training with noise adversarial network: A generalization method for object detection on sonar image[C]//IEEE Winter Conference on Applications of Computer Vision. Snowmass Village, CO, USA, 2020: 718-727. [18] HUANG C, ZHAO J, ZHANG H, et al. Seg2Sonar: A full-class sample synthesis method applied to underwater sonar image target detection, recognition, and segmentation tasks[J]. IEEE Transactions on Geoscience and Remote Sensing, 2024, 62: 1-19. [19] YU Y, ZHAO J, GONG Q, et al. Real-time underwater maritime object detection in side-scan sonar images based on transformer-YOLOv5[J]. Remote Sensing, 2021, 13(18): 3555. [20] DENG J, DONG W, SOCHER R, et al. ImageNet: A large-scale hierarchical image database[C]//2009 IEEE Conference on Computer Vision and Pattern Recognition. Miami, FL, USA: IEEE, 2009: 248-255. [21] FERREIRA F, MACHADO D, FERRI G, et al. Underwater optical and acoustic imaging: A time for fusion? A brief overview of the state-of-the-art[C]//OCEANS 2016 MTS/IEEE Monterey. Monterey, California, USA: IEEE, 2016:1-6. [22] REED S, PETILLOT Y, BELL J. Automated approach to classification of mine-like objects in sidescan sonar using highlight and shadow information[J]. Radar, Sonar and Navigation, 2004, 151: 48-56. [23] JOCHER G, CHAURASIA A, QIU J. Ultralytics YOLOv8[CP/OL]. [2025-01-30]. https://github.com/ultralytics/ultralytics. [24] JOCHER G. Ultralytics YOLOv5[CP/OL]. [2025-01-30]. https://github.com/ultralytics/yolov5. [25] WANG A, CHEN H, LIU L, et al. YOLOv10: real-time end-to-end object detection[EB/OL]. (2024-10-30)[2025-01-30]. https://arxiv.org/abs/2405.14458. [26] REN S, HE K, GIRSHICK R, et al. Faster R-CNN: Towards real-time object detection with region proposal networks[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence, 2017, 39(6): 1137-1149. -