0-LeSAM: Adapt Segment Anything Model for Medical Lesion Segmentation

LeSAM：将 Segment Anything 模型应用于医学损伤分割

IEEE JOURNAL OF BIOMEDICAL AND HEALTH INFORMATICS, VOL. 28, NO. 10, OCTOBER 2024

背景

病变分割在医学图像分析中至关重要，但由于医学图像的复杂性和多样性，准确分割具有挑战性。现有深度学习算法受限于训练数据和模型特异性，难以通用。SAM 在自然图像分割表现出色，但直接用于医学图像分割时，因医学与自然图像领域差异，对不规则形状和低对比度病变分割效果不佳。已有研究尝试将 SAM 应用于医学图像，主要集中于器官分割，对病变分割关注较少，且依赖大量标注数据，未充分利用浅层特征。

提出 LeSAM，通过简单有效的策略将 SAM 适配于医学病变分割，提高其在不同成像模态下的病变分割性能。
开发特定于医学的图像编码器和任务特定的掩码解码器，融入医学领域知识，改善病变边界描绘。
通过全面实验验证方法在多种病变分割任务中的有效性和泛化能力。

实验方法

LeSAM 概述

LeSAM 保留 SAM 大部分结构，在原始图像编码器的每个变压器块中插入适配器模块，将提示编码器设为框模式，修改掩码解码器为 U 形结构。冻结原始图像编码器参数，使适配器模块、提示编码器和掩码解码器可训练。

提出的 LeSAM 的架构。将适配器模块整合到每个 transformer 模块中，以集成特定任务的知识，并修改掩码解码器以改善与病变边界的对齐。原始图像编码器的参数被冻结，而适配器模块、提示编码器和掩码解码器被设置为可调。掩码解码器的中间特征图直观地显示在底部。

特定医学图像编码器

在原始图像编码器的每个变压器块中加入适配器模块，由下投影线性层、GeLU 激活和上投影线性层组成，引入医学特定知识，优化图像特征。（a）

方法中采用的子块的架构。

任务特定掩码解码器

将掩码解码器设计为 U 形架构，利用卷积和上卷积操作处理不同分辨率的图像特征，通过融合和解码操作生成预测掩码，增强对不规则病变边界的描绘能力。(b)(c)(d)

渐进式训练策略

采用渐进式学习策略，先使用自监督预训练（MAE）结合无标签医学数据（RadImageNet）训练适配器模块，再用特定任务数据集训练适配器和其他可训练组件，使用 Dice 损失和交叉熵损失之和进行优化。

实验结果

医学和自然的图像特征的流形。

在多个公共数据集上进行实验，涵盖不同模态和病变类型的医学图像。对图像强度值进行裁剪和归一化处理，将 3D 图像切片为 2D 图像，并生成框提示和随机扰动。

基于 Python、PyTorch 和 MONAI 库实现模型，使用 NVIDIA RTX 4090 GPU 训练。采用 AdamW 优化器和线性调度器，训练 50 个 epoch，初始学习率为 1e - 4。评估指标包括 DSC、IoU（用于 2D 图像）和 95HD、NSD（用于 3D 图像）。

分割性能

在 MSD 的五个 CT 肿瘤数据集上训练评估 LeSAM，与多种方法对比，LeSAM 在四个数据集上达到 SOTA，平均结果最优，能更好地描绘病变边界，但在肝肿瘤分割中仍有提升空间。

泛化能力评估

在不同模态和病变的数据集上评估 LeSAM 的泛化能力，与其他方法对比，LeSAM 在 7 个分割任务中的 4 个达到 SOTA，在其余 3 个任务中排名第二，证明其作为通用病变分割方法的有效性。

定性结果

通过可视化比较，LeSAM 在准确描绘肿瘤边界方面优于其他方法，有效缓解了过分割问题，改进了分割效果。

消融实验

适配器模块显著提高了 DSC 和 NSD 值；修改后的掩码解码器进一步提升了分割性能，尤其在 NSD 值上提升明显，可视化结果也证明其对肿瘤边界描绘的改进。

基于 KiTS19 的消融研究结果显示相应的平均 DSC 和 NSD 值。

总结

渐进式学习策略促进模型收敛；框提示的扰动会影响分割性能，大肿瘤相对更鲁棒，小肿瘤更敏感；模型在提示不足和低对比度病变情况下可能失败；LeSAM 性能依赖手动绘制框提示的准确性。

提出的 LeSAM 通过参数高效的适配技术和掩码解码器修改，显著提升了 SAM 在医学病变分割中的性能，在多种病变分割任务中取得优异结果，证明了适配 SAM 用于医学图像分割的临床意义。

机器学习 > 论文笔记

#SAM

0-MAFE-Net: retinal vessel segmentation based on a multiple attention-guided fusion mechanism and ensemble learning network 上一篇

0-GlanceSeg: Real-time microangioma lesion segmentation with gaze map-guided foundation model for early detection of diabetic retinopathy 下一篇