医学影像与SAM

SAM与医学影像

SAM

SAM 是一种可提示的分割架构,由三个主要组件组成,即图像编码器、提示编码器和掩码解码器。图像编码器采用视觉转换器 (ViT) (Dosovitskiy et al., 2020) 作为支柱,用一组变压器块提取图像的基本特征。提示编码器接受各种类型的提示,包括点、框或文本,并将这些输入编码到提示嵌入中,以促进分割任务。掩码解码器设计为轻量级,它计算图像嵌入和提示之间的交叉注意力,并利用转置卷积层和多层感知来生成分割掩码。当应用于医学图像时,模型的性能会大大下降,因为医学图像呈现的纹理和对象与自然图像不同。这凸显了对 SAM 进行特定于任务的微调以应对此类挑战的必要性。

为什么倾向于将 SAM 用于医学影像任务呢?这可以归因于与 SAM 相关的三个潜在优势。首先,SAM 的训练数据集由广泛的图像集合组成。在医疗应用的背景下获取类似的大规模训练数据集极具挑战性。尽管 SAM 的训练数据仅包含自然图像,但它并不局限于任何特定的医学成像模式。如果 SAM 微调被证明对一种类型的医学成像有效,那么同样的方法也很有可能也适用于其他模式。其次,经过微调后,SAM 作为预训练的大型模型可能具有稳健泛化的潜力,这对于在关键医疗应用中有效部署智能模型非常重要。第三,SAM 的提示设计为处理肿瘤分割等困难任务的半自动分割提供了一种方便的解决方案。在这些方面,SAM 提供了一个通用的基础模型,有可能适应不同的医学成像模式,为全自动和半自动分割提供良好的泛化能力。