研究论文

基于Mask R-CNN改进模型的深海多金属结核图像分割方法

  • 翁泽邦 ,
  • 李小虎 , * ,
  • 李洁 ,
  • 李正刚 ,
  • 王浩 ,
  • 朱志敏 ,
  • 孟兴伟 ,
  • 李怀明
展开
  • 海底科学与划界全国重点实验室,自然资源部第二海洋研究,浙江 杭州 310012
* 李小虎(1979—),男,研究员,主要从事海底资源与成矿系统研究,E-mail:

翁泽邦(1998—),男,浙江省杭州市人,主要从事深海多金属结核研究,E-mail:

收稿日期: 2025-04-05

  修回日期: 2025-05-30

  网络出版日期: 2025-10-15

基金资助

国家自然科学基金联合基金重点项目(U2244222)

国家重点研发计划(2023YFC2811305)

Deep-sea polymetallic nodule image recognition method based on an improved Mask R-CNN model

  • WENG Zebang ,
  • LI Xiaohu , * ,
  • LI Jie ,
  • LI Zhenggang ,
  • WANG Hao ,
  • ZHU Zhimin ,
  • MENG Xingwei ,
  • LI Huaiming
Expand
  • State Key Laboratory of Submarine Geoscience, Second Institute of Oceanography, MNR, Hangzhou 310012, China

Received date: 2025-04-05

  Revised date: 2025-05-30

  Online published: 2025-10-15

摘要

在深海多金属结核光学图像分割中,面临着图像对比度低、目标小和边界模糊等问题。本研究构建了一种引入动态稀疏卷积(dynamic sparse convolution,DSConv)和无参数注意力模块(simple parameter-free attention module,SimAM)的改进Mask R-CNN(mask region-based convolutional neural network)模型,对深海图像进行多金属结核目标物识别和分割。引入SimAM有效抑制了沉积物背景对结核识别的干扰;引入DSConv有效缓解了结核边界模糊问题;同时引入两个模块的改进模型,图像分割准确率为91.5%、精确率为78.0%、召回率为75.1%、交并比为69.4%。将改进模型与原始模型应用在实际测线上发现,海底结核覆盖率的识别结果中,误差低于5%的数据占比从原始模型的57%提升至改进模型的77%。本研究可为深海多金属结核覆盖率计算提供可靠的技术方案,其模块化设计也可拓展至其他目标识别、图像分割领域。

本文引用格式

翁泽邦 , 李小虎 , 李洁 , 李正刚 , 王浩 , 朱志敏 , 孟兴伟 , 李怀明 . 基于Mask R-CNN改进模型的深海多金属结核图像分割方法[J]. 海洋学研究, 2025 , 43(3) : 32 -39 . DOI: 10.3969/j.issn.1001-909X.2025.03.004

Abstract

Optical survey and evaluation of deep-sea polymetallic nodules face challenges such as low contrast, small object detection, and boundary ambiguity. This study proposes an improved Mask R-CNN model incorporating dynamic sparse convolution (DSConv) and simple parameter-free attention module (SimAM) for nodule image segmentation. SimAM effectively suppresses sediment background interference, while DSConv alleviates boundary blurring. The combined model achieves an accuracy of 91.5%, precision of 78.0%, recall of 75.1%, and IoU of 69.4%. When applying the improved model and the original model to the actual survey lines, it was found that in the identification results of the seabed nodules coverage rate, the proportion of data with an error less than 5%, increased from 57% of the original model to 77% of the improved model. This research can provide a reliable technical solution for the calculation of deep-sea polymetallic nodule coverage rate, and its modular design can also be extended to other fields of target recognition and image segmentation.

0 引言

深海多金属结核主要分布在水深4 000~6 500 m的大洋盆地,结核中富含铜、钴、镍、稀土等多种金属元素,是一种重要的深海战略性矿产资源,具有巨大的开发潜力[1-2]。多金属结核覆盖率是指单位海底面积中被多金属结核覆盖的比例,是结核资源评估的重要参数,对多金属结核矿区勘探、选址、圈定等工作都至关重要。
前人基于计算机视觉与图像分割技术对多金属结核的视频和图像数据开展了相关研究。例如,SCHOENING等[3]提出了基于紧凑形态学的结核轮廓划分(compact morphology-based nodule delineation,CoMoNoD)算法,可以0.5帧/秒的速度识别海底照片中的结核,完成34 200张照片识别的总耗时仅为19 h。但该方法基于颜色特征提取,对海底生物与结核的区分能力不足,易产生误检现象。TOMCZAK等[4]基于U-Net框架开发了批量处理系统,可在10 h内完成30 000张图像的自动分析,但当图像中的结核边界模糊时,分割精度会下降。SONG等[5]采用基于Pix2PixHD算法构建了结核图像分割模型,通过对106张标注样本的训练,召回率可达到98.55%。WANG等[6]通过整合金字塔上采样模块与残差连接改进了传统U-Net模型,使得模型的准确率达到了99.66%。LIU等[7]针对不同浊度条件下的实验图像开发了增强型U-Net模型,模型的准确率在90%以上。上述模型[6-7]一般都基于极小规模数据集,可能存在过拟合的情况,缺乏对模型泛化能力的验证。SHAO等[8]采用两阶段去噪扩散概率模型,分析了106张海底图像,召回率可以达到86.49%,但未验证该模型的鲁棒性。
分析已有研究发现,海底多金属结核图像分割在实际应用中面临两大难题。第一,极端环境下的图像失真[9]与密集分布的结核边界模糊,导致模型的分割精度下降与漏检率上升。第二,数据标注与泛化瓶颈。由于目前的研究数据集规模较小,缺少对于同区域、不同拍摄状态下的结核图像的分析,导致模型泛化能力不足。
本研究旨在开发一种高性能分割模型,以解决复杂海底环境下小型结核识别率低、分割不准确以及模型泛化能力不足等问题。通过多尺度特征增强、注意力机制优化和数据增强等技术手段,提升模型在多变海底环境中的分割精度和鲁棒性,使其更高效地应用于深海多金属结核勘探。

1 图像分割方法与改进

1.1 Mask R-CNN算法

Mask R-CNN[10]为一种高效的实例分割算法(图1),通过引入并行掩码预测分支,实现目标检测与图像分割的协同优化。首先,利用残差网络(residual network,ResNet)结合特征金字塔网络(feature pyramid network,FPN)生成多尺度特征图,并借助区域提议网络(region proposal network,RPN)和ROIAlign技术精确提取特征,再通过全连接层输出目标坐标与类别,最后通过全卷积网络输出精确分割的掩码。相较于U-Net等语义分割算法,Mask R-CNN能对目标边界模糊或被遮挡图像表现出较高的分割精度[11],也能降低目视判读困难区域的漏检率[12]
图1 Mask R-CNN算法结构

Fig.1 Structure of Mask R-CNN algorithm

1.2 Mask R-CNN模型的改进方案

以Mask R-CNN实例分割模型为基础,对卷积和集成注意力两个关键模块进行改进。

1.2.1 卷积模块优化

将原Mask R-CNN模型(图1)中FPN中的残差块,由标准卷积替换为动态稀疏卷积(dynamic sparse convolution,DSConv)[13]。DSConv为双路径计算,一方面进行基础3×3卷积计算,保留完整的空间特征提取能力;另一方面,通过全局平均池化、1×1卷积以及Sigmoid激活函数,产生表征特征通道或空间位置重要性的权重,依据稀疏率对权重进行二值化,得到稀疏掩码。经过上述双路径计算,输出稀疏后特征图(图2)。
图2 动态稀疏卷积结构

Fig.2 Structure of DSConv

改进后的残差块结构如图3所示,其在FPN中的位置如图4所示。
图3 改进后的残差块结构

Fig.3 Structure of the improved residual block

1.2.2 集成注意力模块优化

在原Mask R-CNN模型的FPN的C2层至C5层嵌入了无参数注意力模块(simple parameter-free attention module, SimAM),改进后FPN的结构如图4所示。图中,C1至C5表示ResNet网络的不同层级或者阶段,输出为不同尺寸特征图,P2至P5表示特征融合后的不同尺寸特征图。SimAM是一种结构简单、无需额外参数的注意力模块,通用性好,计算效率高[14]。它基于神经科学理论,通过计算每个神经元的能量函数来自适应地增强重要特征、抑制噪声,核心步骤包括特征提取、能量函数计算、特征加权与融合。能量函数公式如下式所示:
en= 4 ( 2 + φ ) ( t n - μ ^ ) 2 + 2 2 + 2 φ
式中:en表示第n个神经元的能量函数;∂2表示神经元在单个通道上的方差;tn为输入特征图在单个通道上的第n个神经元;φ为正则项; μ ^表示输入特征图在各个通道的均值。
图4 改进后的FPN结构

Fig.4 Structure of the improved FPN network

2 图像来源、预处理与数据集构建

2.1 图像来源

本研究的多金属结核图像来源于中国大洋第79航次,由AUV或深海拖体拍摄,共2 172张。根据拍摄距离的远近,拍摄的深海多金属结核图像可以分成三类:远距离(>5 m)图像,整体呈现蓝绿色,目标(结核)尺寸相对较小(图5a5d);中距离(2~5 m)图像,沉积物呈现明显的黄色,目标(结核)尺寸适中(图5b5e);近距离(<2 m)图像,部分图像中出现大面积的沉积物(图5c5f)。
图5 深海多金属结核图像

Fig.5 Deep-sea polymetallic nodule images

2.2 图像分割流程

图像分割的主要流程如下:首先采用基于阈值分割方法对原始图像进行自动化标注,再结合人工进行校正优化,形成标注数据集;通过图像增强对标注数据集进行扩充、丰富,生成特征多样的数据集;将数据集以8∶2的比例分为训练集和测试集,用于Mask R-CNN原始模型和其改进模型的训练和测试;对模型测试结果进行评估,比较不同模型的分割结果,筛选出效果最佳的模型。

2.3 图像掩码标注

对比全局、局部和自适应三种阈值算法的图像分割效果,以目标区域与背景区域的对比度和目标边缘清晰度两个指标进行分割效果评估,选择其中最优算法生成预分割掩码(图6)。从图6可见,结核密集或图像对比度较低的图像,在结核相邻的区域产生了错误连接,表明阈值分割法在分割精度和鲁棒性方面的不足。
图6 原始图像及其预分割掩码

Fig.6 Original images and their pre-segmentation mask

2.4 图像增强

基于物理成像过程,设计了5种图像增强方法来提升模型对真实海底环境的适应性和泛化能力:1)对图片进行旋转、翻转、平移或缩放等几何变换,模拟不同位姿下拍摄的图像;2)调整亮度,模拟光源强度变化差异;3)对RGB通道进行数值调整和对直方图均衡化处理,模拟不同颜色通道光线衰减;4)使用高斯滤波模拟平台移动或湍流条件下的图像;5)添加高斯白噪声以模拟受悬浮颗粒干扰的图像(图7)。
图7 不同图像增强方法的视觉效果

Fig.7 Visualization of different image enhancement methods

2.5 训练集和测试集的图件数量

通过预处理,共获得3 591张分辨率为1 400×1 000的全标注RGB图像,用于模型的训练和测试,按照8∶2的比例分配。训练集共包含2 873张图像,其中原始图像占比约为50%,每一种增强方法处理的图像分别占比约为10%。测试集共包含718张图像,全部为原始图像。

2.6 评价指标

通过准确率(Accuracy)、精确度(Precision)、召回率(Recall)、交并比(IoU)和平均精度(average precision,AP)等指标量化模型的表现。其中准确率反映结核分类的正确性;精确度衡量模型预测结果的可靠性;召回率衡量模型对结核的检出能力;交并比评估分割的精细化程度,交并比越高,模型对结核边界的定位越精确;平均精度表示IoU阈值在50%~95%区间内精确度-召回率曲线的面积,AP50和AP75分别表示交并比阈值为50%和75%时的平均精度,APs、APm和APl分别表示模型对像素面积小于322、322 ~962和大于962三种图像预测结果的平均精度[15]
准确率、精确度、召回率和交并比的计算公式如下:
Accuracy= T P + T N T P + T N + F P + F N
Precision= T P T P + F P
Recall= T P T P + F N
IoU= T P T P + F P + F N
式中:TP表示被正确预测为结核的像素数量,TN表示被正确预测为背景的像素数量,FP表示被错误预测为结核的像素数量,FN表示被错误预测为背景的像素数量。

3 模型测试结果

3.1 图像分割结果

图8为原始Mask R-CNN模型及其改进模型的图像分割结果的对比。不同模型分割结果显示,对于图像清晰、结核边界分明的样本,Mask R-CNN模型以及改进的Mask R-CNN模型均能实现较好的分割效果(图8a1~8a5);当图像中的结核呈密集分布时,Mask R-CNN模型的分割精度(图8b28c28d2)明显低于分别引入SimAM(图8b38c38d3)、DSConv(图8b48c48d4)以及同时集成这2个模块(图8b58c58d5)的改进模型。其中,同时集成2个模块的改进模型的表现最优。
图8 Mask R-CNN模型及其改进模型的图像分割结果对比

Fig.8 Comparative results of image segmentation by Mask R-CNN and the modified Mask R-CNN

不同模型测试结果评价如表1所示。Mask R-CNN模型的准确率为88.2%,精确率(72.5%)、召回率(68.3%)和交并比(62.1%)相对较低,反映出模型对复杂海底环境图像的分割存在明显缺陷。这一方面可能是由于沉积物干扰和低对比度成像条件导致了大量误检;另一方面,对边界模糊的目标(图8b2、(8d2),漏检现象严重。引入SimAM后,模型的各项指标均获得提升,其中精确率和交并比提升明显,表明该机制有效抑制了沉积物背景的干扰。引入DSConv的改进模型,准确率达到91.2%,交并比提升至68.7%。结合图8可以看到,引入DSConv后显著改善了模型对紧密连接结核的区分能力。同时集成SimAM和DSConv的改进模型,准确率(91.5%)、精确率(78.0%)、召回率(75.1%)和交并比(69.4%)均达到最高,证明两种改进策略具有显著的协同效应,提升了模型在复杂场景下的分割精度和鲁棒性。
表1 不同模型的测试结果评价

Tab.1 Evaluation of test results for different models

模型 准确
率/%
精确
度/%
召回
率/%
交并
比/%
Mask R-CNN 88.2 72.5 68.3 62.1
Mask R-CNN+SimAM 89.7 75.1 71.8 65.3
Mask R-CNN+DSConv 91.2 77.6 74.2 68.7
Mask R-CNN+SimAM+DSConv 91.5 78.0 75.1 69.4

3.2 不同模型平均精度的比较

不同模型的平均精度如表2所示, Mask R-CNN模型的APs仅为58.82%,反映出模型对结核的检测能力存在明显局限,主要表现为对小目标的漏检和误合并现象(图8b2)。结合SimAM和DSConv两个模块的改进模型对3种大小结核的检测性能均为最佳。对比Mask R-CNN原始模型和Mask R-CNN+SimAM+DSConv改进模型的AP50和AP75指标发现,AP75从69.61%提升至76.49%,验证了Mask R-CNN+SimAM+DSConv改进模型在高交并比阈值下的定位优势,它可以有效缓解因图像模糊或边缘不清导致的分割偏差问题(图8c5)。Mask R-CNN+SimAM+DSConv改进模型的AP达到64.49%,较Mask R-CNN原始模型提升了5.65个百分点,也优于其他模型,例如,改进的Swin Transformer,AP为51.6%[16],YOLO等实时检测模型,AP为52%~56%[17]
表2 不同模型的平均精度

Tab.2 Average precision of different models

模型 AP/% AP50/% AP75/% APs/% APm/% APl/%
Mask R-CNN 58.84 84.32 69.61 58.82 66.28 37.42
Mask R-CNN+SimAM 61.59 85.49 72.85 61.33 72.47 46.07
Mask R-CNN+DSConv 64.07 86.76 76.31 64.08 72.87 47.06
Mask R-CNN+SimAM+DSConv 64.49 86.78 76.49 64.50 73.01 47.79

3.3 改进模型的应用

在深海摄像过程中,受海洋环境因素(如风浪扰动、海底地形变化等)的影响,摄像设备与多金属结核之间的拍摄距离难以保持恒定,拍摄距离波动范围为0~10 m。根据拍摄距离的不同,获取的结核图像一般可分为以下三类:中距离(2~5 m)图像,图像具有较高的清晰度,能够清晰呈现结核形态特征;近距离(<2 m)图像,单个结核在图像中占比大;远距离(>5 m)图像,拍摄距离远,结核目标的像素尺寸小,图像整体清晰度低。
以中国大洋79航次中一条测线(10 km)为例,分别采用Mask R-CNN原始模型与Mask R-CNN+SimAM+DSConv改进模型对在测线上拍摄的1 923张图像中的结核进行识别,结果如图9所示。从图9可以看到,两个模型均反映出海底结核连续的空间分布特征,但覆盖率存在一定波动性,原始模型计算的覆盖率的波动幅度明显大于改进模型。
图9 原始模型和改进模型的海底结核覆盖率识别结果对比

Fig.9 Comparison of seabed nodule coverage rate recognition results between original and improved models

以窗口大小为10取滑动平均,绘制模型预测结核覆盖率平均值的残差直方图(图10)。图10显示,改进模型显著降低了残差波动范围,性能提升明显,误差低于5%的数据占比从57%提升至77%。这一结果表明,改进模型可有效降低预测结果的离散程度,显著提升结核覆盖率计算的稳定性,模型分割的鲁棒性获得明显改善,可为海底结核空间分布特征的精确量化提供技术支持。
图10 改进模型与原始模型的海底结核覆盖率残差直方图

Fig.10 Residual histogram of seabed nodule coverage rate of the improved model compared to that of the original model

4 结论

本研究提出的改进模型为深海多金属结核资源的覆盖率计算提供了一种高效、精准的技术方案,不仅提升了图像分割的精度,还增强了在复杂海底环境下的应用稳定性,有效解决了深海多金属结核图像分割中的三大核心问题:低对比度、小目标检测和边界模糊。主要结论如下。
1)同时引入DSConv和SimAM后的Mask R-CNN改进模型的交并比达到了69.4%,准确率提升至91.5%,较原Mask R-CNN模型分别提升了7.3%和3.3%,表明改进后的模型,分割精度得到了显著提升,在处理复杂图像时的性能更优越。
2)同时引入DSConv和SimAM的Mask R-CNN改进模型,AP值为64.49%,较原Mask R-CNN模型提升了5.65%。两个模块的协同作用提升了模型对目标分割的精确性和泛化能力。
3)在实际测线上的应用显示,引入DSConv和SimAM的Mask R-CNN改进模型相比原始模型,目标分割鲁棒性明显增强,误差低于5%的数据占比从57%提升至77%。
[1]
HEIN J R, KOSCHINSKY A, KUHN T. Deep-ocean poly-metallic nodules as a resource for critical materials[J]. Nature Reviews Earth & Environment, 2020, 1(3): 158-169.

[2]
BALARAM V, MATHUR R, BANAKAR V K, et al. Determination of the platinum-group elements (PGE) and gold (Au) in the manganese nodule reference samples by nickel sulfide fire-assay and Te coprecipitation with ICP-MS[J]. Indian Journal of Marine Sciences, 2006, 35(1): 7-16.

[3]
SCHOENING T, JONES D O B, GREINERT J. Compact-morphology-based poly-metallic nodule delineation[J]. Scientific Reports, 2017, 7: 13338.

DOI PMID

[4]
TOMCZAK A, KOGUT T, KABAŁA K, et al. Automated estimation of offshore polymetallic nodule abundance based on seafloor imagery using deep learning[J]. Science of the Total Environment, 2024, 956: 177225.

[5]
SONG W, WANG H L, ZHANG X P, et al. Deep-sea nodule mineral image segmentation algorithm based on Pix2PixHD[J]. Computers, Materials & Continua, 2022, 73(1): 1449-1462.

[6]
WANG H L, DONG L H, SONG W, et al. Improved U-net-based novel segmentation algorithm for underwater mineral image[J]. Intelligent Automation & Soft Computing, 2022, 32(3): 1573-1586.

[7]
LIU L P, LI X, YANG J M, et al. Target recognition and segmentation in turbid water using data from non-turbid conditions: A unified approach and experimental validation[J]. Optics Express, 2024, 32(12): 20654.

DOI PMID

[8]
SHAO M Y, SONG W, ZHAO X B. Polymetallic nodule resource assessment of seabed photography based on denoising diffusion probabilistic models[J]. Journal of Marine Science and Engineering, 2023, 11(8): 1494.

[9]
AKKAYNAK D, TREIBITZ T. Sea-thru: A method for removing water from underwater images[C]//IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Long Beach, CA, USA. IEEE, 2019. DOI:10.1109/cvpr.2019.00178.

[10]
HE K M, GKIOXARI G, DOLLAR P, Mask R-CNN[C]// IEEE International Conference on Computer Vision (ICCV). Venice. IEEE, 2017. DOI:10.1109/iccv.2017.322.

[11]
QUOC T T P, LINH T T, MINH T N T. Comparing U-Net convolutional network with Mask R-CNN in agricultural area segmentation on satellite images[C]// 2020 7th NAFOSTED Conference on Information and Computer Science (NICS). Ho Chi Minh City, Vietnam. IEEE, 2020. DOI:10.1109/nics51282.2020.9335856.

[12]
ERDEM F, OCER N E, MATCI D K, et al. Apricot tree detection from UAV-images using Mask R-CNN and U-Net[J]. Photogrammetric Engineering & Remote Sensing, 2023, 89(2): 89-96.

[13]
VERELST T, TUYTELAARS T. Dynamic convolutions: Exploiting spatial sparsity for faster inference[C]// IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Seattle, WA, USA. IEEE, 2020. DOI:10.1109/cvpr42600.2020.00239.

[14]
XIE J S, WU Z Z, ZHU R J, et al. Melanoma detection based on swin transformer and SimAM[C]// IEEE 5th Information Technology, Networking, Electronic and Automa-tion Control Conference (ITNEC). Xi’an, China. IEEE, 2021. DOI:10.1109/itnec52019.2021.9587071.

[15]
EVERINGHAM M, VAN GOOL L, WILLIAMS C K I, et al. The pascal visual object classes (VOC) challenge[J]. International Journal of Computer Vision, 2010, 88(2): 303-338.

[16]
ZHOU Y T, LI W J, YANG G. Instance segmen-tation of single cells using a transformer-based semantic-aware model and space-filling augmentation[C]// IEEE/CVF Winter Conference on Applications of Computer Vision (WACV). Waikoloa, HI, USA. IEEE, 2023. DOI:10.1109/wacv56688.2023.00589.

[17]
GILLANI I S, MUNAWAR M R, TALHA M, et al. YOLOv5, YOLO-X, YOLO-R, YOLOv7 performance comparison: A survey[C]//Artificial Intelligence and Fuzzy Logic System. Academy and Industry Research Collaboration Center (AIRCC), 2022. DOI:10.5121/csit.2022.121602.

文章导航

/