0-3DSAM-adapter: Holistic adaptation of SAM from 2D to 3D for promptable tumor segmentation
3DSAM-adapter: Holistic adaptation of SAM from 2D to 3D for promptable tumor segmentation
3DSAM 适配器:SAM 从 2D 到 3D 的整体适应,用于及时的肿瘤分割 2024年8月
背景
SAM框架对于日常的图像已经有良好的分割性能,但是在医学图像分割上表现出的性能不太精确且不稳定,尤其是在处理涉及小尺寸、不规则形状和低对比度物体的肿瘤分割任务时。最初的SAM是为了自然界2D图像而设计的,无法有效的获取医学图像中3D空间信息,所以在本文中作者提出了一种新的适应方法,用于将 SAM 从 2D 转移到 3D 以进行可提示的医学图像分割。
本文提出了一种新的参数高效自适应方法,以全面将 SAM 从 2D 适应 3D 以进行医学图像分割。修改了图像编码器以支持体积输入,同时重用预先训练的权重。在提示编码器级别,引入了用于点提示的视觉采样器,并使用全局查询来过滤掉噪声,解决了过度平滑问题,并提高了模型的稳健性。对于掩码解码器,优先考虑具有多层聚合的轻量级设计。结果表明,本文的方法可以大大优于现有方法。该方法还显示了提示符的数量和位置的稳健性。例如,肿瘤边缘的单个点也可以作为准确分割的提示。
实验方法
1.SAM框架:LINK
2.体积输入编码器:使用2DViT编码器适应3D图像信息,通过补丁嵌入、位置编码、注意块、瓶颈机制将2DViT修改到支持3DViT,同时保持大部分参数可重用。

a)在下投影层之后附加了一个深度 3D 卷积,以便适配器可以更好地利用 3D 空间信息。将空间适配器放置在两个相邻的注意力块之间。在每个注意力块之后,得到了大小为 [B, DHW, c] 的潜在特征图。然后,此特征图被重塑为 [B, c, D, H, W] 并通过空间适配器,从而产生相同大小的自适应特征图。然后,调整后的特征图被重塑回大小 [B, DHW, c] 并插入到随后的注意力块中。通过冻结方案让训练时有良好的内存效率,和对之前信息的记忆力。
3.提示编码器
b)视觉采样器
$$
P_s=VisualSampler(s,Z)
$$
其中 s 是从提示点的坐标,Z 是从图像中提取的特征图,Ps 是提示的嵌入。给定特征图 Z,每个网格对应于一个长度为 c 的潜在向量。通过三线性插值,也可以从特征图中采样非整数位置的视觉特征。这种设计可以更好地利用空间信息,根据点提示的坐标直接从图像特征图中采样,从而在保证图像嵌入和提示嵌入之间的对齐的同时,避免了每个标记的权重计算。通过双向注意力机制将提示嵌入与图像嵌入融合(a)->
由于点和提示词的全局查询的数量都非常小,缓解了过度平滑的问题,提高对干扰点的容忍度。从背景中随机采样10个点提高模型对嘈杂提示的鲁棒性,在One-Prompt表现也很好。
4.解码器-轻量级
将2D卷积替换为3D卷积,生成3D掩码,医学图像需要更加精细的像素划分,作者在保持轻量级的同时使用了多层聚合机制(b),
实验结果
实验集中在肿瘤分割上。
与公认的和最新的最先进的域分割方法比较。
从 3D 透视图可视化预测的分割掩码。与基线相比,本文的方法可以生成具有更多切片间平滑度和连贯性的蒙版
总结
本文提出了一种新的参数高效适应方法,将 SAM 从 2D 整体适应 3D 以进行可及时的肿瘤分割。对图像编码器的修改是专门为支持体积输入而设计的,同时重用预先训练的权重。该文提出视觉采样器与全局查询一起,在提示编码器层面取代原来的交叉注意力机制,可以过滤掉提示中的噪声,缓解随着维度上升而过度平滑的问题。掩码解码器中使用了多层聚合,以更好地利用编码器的中间功能。在几个公共肿瘤分割数据集上的实验表明,本文的方法优于最先进的医学图像分割模型和现有的参数高效微调方法。
目前存在的问题:一个观察结果是,尽管许多基于 transformer 的方法在多类分割方面可以优于 nnU-Net,但对于纯肿瘤分割,总体趋势是基于 CNN 的方法具有更好的性能并且更容易训练。这可能是因为肿瘤的大小非常小,肿瘤检测更多地依赖于局部纹理信息。因此,全局信息,即transformer 的强度不再有用。因为 SAM 基于 ViT,在第一次降采样操作期间可能会丢失大量详细的纹理信息。未来的方向可能需要如何调整架构以恢复这些纹理细节,以便性能能够以全自动的方式实现 SOTA。