0-MA-SAM: Modality-agnostic SAM adaptation for 3D medical image segmentation

MA-SAM: Modality-agnostic SAM adaptation for 3D medical image segmentation

MA-SAM:用于 3D 医学图像分割的模态不可知的 SAM 自适应 2024年8月

背景

SAM模型已经在很多分割任务中取得很好的zero-shot性能,但在医学图像上仍有欠缺,本文提出了一种与模态无关的 SAM 适应框架(MA-SAM),通过将一系列 3D 适配器注入图像编码器的 transformer 块中,让模型有2D-3D的分割能力,在没有任何提示的情况下优于各种最先进的方法,并且还有很强的泛化性。将3D适配器集成到图像编码器的transformer块中,提取有价值的三维信息。

  • 提出了一种参数高效的微调方法,以使 SAM 适应体积和视频医疗数据。通过创新一系列 3D 适配器,方法有效地将医学图像中的基本三维信息整合到 SAM 的 2D 网络骨干中
  • 证明本文的 SAM 适应可以应用于各种医学成像模式,包括 CT、MRI 和手术视频数据,用于解剖学、手术场景和肿瘤分割。无需使用任何提示,自动分割始终优于竞争对手的 SOTA 方法
  • 验证了在对医学图像进行微调后,获得的模型表现出出色的泛化能力,表现出比 SOTA 域泛化方法更优越的性能。
  • 通过进一步利用提示,本文的方法在具有挑战性的肿瘤分割任务中取得了令人印象深刻的结果,Dice 分数超过了 nnU-Net 38.7%。

实验方法

1.图像编码器的参数高效微调

图像编码器通过使用 FacT 的 parameter-efficient 微调策略进行更新。体积或时间信息通过一组 3D 适配器有效地合并。掩码解码器经过完全微调和修改,以恢复预测分辨率。Reshape 操作用于使 3D 操作与 2D 主干兼容。

2.合并体积或时间信息

SAM是为了2D设计的,所以对CT和MRI数据中的解剖结构和3D空间信息不支持,作者将3D适配器集成到SAM中的2D模块中,使其能够有效地处理多维医疗数据。

如上图所示,每个 3D 适配器由一个归一化层、一个线性下投影层、一个 3D 卷积层和一个激活层和一个线性上投影层组成。体积或时间信息的核心提取主要位于 3D 卷积层内。下投影层的目的是将原始 d 维特征的维数降低为更紧凑的 c 维表示,从而控制新引入参数的数量。相反,向上投影层将恢复特征尺寸。对于每个transformer块,在注意力层之前和之后都加入了两个 3D 适配器,因为这种设计可以获得经验上优越的性能。

3.适配掩码解码器

原始 SAM 中的掩码解码器仅包含两个 transformer 层、两个转置卷积层和一个多层感知层,构成了轻量级的架构,SAM对输入的16 x 16的下采样和连续的转置卷积等使生成的最终预测图像分辨率比原始低4倍,然而医学图像的细节非常小,需要更高的分辨率。本文使用了两种方法,一种是“渐进式上采样”,通过集成两个额外的转置卷积操作,对 SAM 解码器进行了适度的调整。每层将特征图上采样 2 倍,四个转置卷积层逐渐将特征图恢复到其原始输入分辨率。第二种方法被称为“多尺度融合”,需要创建一个类似于“U 形”网络的设计。这涉及使用跳过连接将图像编码器的多尺度特征图与掩码解码器的相应阶段连接起来,这一概念类似于 U-Net框架。

实验结果

作者在 5 个医学图像分割任务上广泛评估了方法,涵盖了 11 个数据集的三种医学成像模式,即 CT 中的腹部多器官或肿瘤分割、MRI 中的前列腺分割和手术视频中的手术场景分割

总结

本文作者提出了植根于参数高效的微调策略的方法,并在微调过程中成功整合了医学图像的体积或时间信息。在不使用任何提示的情况下,自动分割方法大大优于各种 SOTA 3D 医学图像分割方法,模型还展示了出色的泛化能力,以及在使用提示时在特别具有挑战性的肿瘤分割方面的显着优势。本文的方法可为通用分割框架具有重要的前景,可以应用于各种医学成像模式,以实现全自动和可提示的分割。