0-Segment Anything in Medical Images
Segment Anything in Medical Images
arXiv:2304.12306v3 [eess.IV] 1 Apr 2024
背景
本文介绍MedSAM这个基础模型,旨在让SAM弥补在医学图像分割领的不足,在大量的图像掩码上开发,涵盖多种病灶类型,证明了比模态专业模型更好的准确性和稳健性。在广泛的任务中提供准确高效的细分。
分割是医学成像分析中的一项基本任务,它涉及识别和描绘各种医学图像中的感兴趣区域 (ROI),例如器官、病变和组织。准确分割对于许多临床应用至关重要,包括疾病诊断、治疗计划和疾病进展监测 。长期以来,手动分割一直是描绘解剖结构和病理区域的黄金标准,但这个过程耗时、劳动密集,并且通常需要高度的专业知识。所以基于深度学习的方法具有很大的研究价值,本文使用分割基础模型SAM,SAM 具有很好的泛化能力, MedSAM是一个改进的基础模型,可显著提高 SAM 在医学图像上的分割性能。MedSAM 通过在具有超过 100 万对医学图像-掩模对的前所未有的数据集上微调 SAM 来实现这一目标。
实验方法
MedSAM 在可以处理各种分割任务的大规模数据集上进行训练。该数据集涵盖了各种解剖结构、病理状况和医学成像模式。洋红色轮廓和掩码叠加层分别表示专家注释和 MedSAM 分割结果。
Computed Tomography (CT), Magnetic Resonance Imaging (MRI), 和 endoscopy是最主要的医学数据,CT 和 MRI 图像提供 3D 身体结构的详细横截面视图,其他的还有ultrasound(超声), pathology(病理学), fundus(眼底), dermoscopy(皮肤镜检查), mammography(乳腺X线摄影), 和Optical Coherence Tomography (OCT 光学相干断层扫描),这些模态及其相应的细分目标的多样性强调了通用且有效的细分模型的必要性,该模型能够处理与每种模态相关的独特特征。
a : 每种模态中的医学图像掩码对数。
b : MedSAM 是一种可提示的分割方法,用户可以使用边界框来指定分割目标。源数据作为 源数据 文件提供。
实验结果
定量和定性评估结果。
a : 86 个内部验证任务的绩效分布,根据骰子相似系数 (DSC) 分数的中位数。框内的中心线表示中值,框的下边界和上边界分别描绘第 25 个和第 75 个百分位数。选择须线以显示四分位距的 1.5。向上三角形表示最小值,向下三角形表示最大值。
b : 用于可视化 86 个内部验证任务的性能对应关系的 Podium 图。上半部分:每个彩色点表示使用相应方法在一项任务上实现的 DSC 中位数。对应于相同任务的点由一条线连接。下半部分:条形图表示每种方法获得排名的频率。MedSAM 在大多数任务中排名第一。
c : 内部验证集上的可视化分割示例。这四个例子分别是计算机断层扫描 (CT)、(磁共振成像)MRI、超声和内窥镜检查图像中的肝癌、脑癌、乳腺癌和息肉。蓝色:边界框提示;黄色:分割结果。Magenta:专家注释。源数据作为源数据文件提供。
a :60 个外部验证任务的中位数骰子相似系数 (DSC) 分数的性能分布。框内的中心线表示中值,框的下边界和上边界分别描绘第 25 个和第 75 个百分位数。选择须线以显示四分位距的 1.5。向上三角形表示最小值,向下三角形表示最大值。
b :用于可视化 60 个外部验证任务的性能对应关系的 Podium 图。上半部分:每个彩色点表示使用相应方法在一项任务上实现的 DSC 中位数。对应于相同任务的点由一条线连接。下半部分:条形图表示每种方法获得排名的频率。MedSAM 在大多数任务中排名第一。
c :在外部验证集上可视化的分割示例。这四个例子分别是 CT、MR、超声和内窥镜图像中的淋巴结、宫颈癌、胎头和息肉。源数据作为 源数据 文件提供。
框架:
在分割性能和计算效率之间取得平衡,采用基本 ViT 模型作为图像编码器,因为广泛的评估表明,较大的 ViT 模型,如 ViT Large 和 ViT Huge,在准确性方面仅提供边际改进 ,同时显着增加了计算需求。
具体来说,基本ViT模型由12个transformer层组成,每个模块包括一个多头自注意力模块和一个包含层归一化的多层感知器(MLP)模块。使用掩蔽的自动编码器建模进行预训练,然后在 SAM 数据集上进行完全监督训练。输入图像(1024 × 1024 × 3)被重塑为一系列大小为 16 × 16 × 3 的扁平化 2D 块,在通过图像编码器后,图像嵌入中的特征尺寸为 64 × 64,缩小了 16×。提示编码器将边界框提示的角点映射到 256 维矢量嵌入。特别是,每个边界框都由左上角点和右下角点的嵌入对表示。为了在计算图像嵌入后促进实时用户交互,采用了轻量级掩码解码器架构。它由两个用于融合图像嵌入和提示编码的转换器层和两个转置卷积层组成,用于将嵌入分辨率提高到256×256。随后,嵌入经历 sigmoid 激活,然后进行双线性插值以匹配输入大小。
结论
应用:在肿瘤学领域,MedSAM 可以在加速 3D 肿瘤注释过程方面发挥关键作用,从而能够随后计算肿瘤体积,这是评估疾病进展和治疗反应的关键生物标志物 。MedSAM 为使自然图像基础模型适应新领域提供了一种成功的范式,可以进一步扩展到生物图像分割,例如光学显微镜图像中的细胞分割和电子显微镜图像中的细胞器分割。
局限:训练集中的模态不平衡,CT、MRI 和内窥镜图像在数据集中占主导地位。这可能会影响模型在代表性较少的模式(例如乳房 X 光检查)上的性能。另一个限制是它难以分割血管状分支结构,因为在此设置中边界框提示可能不明确。例如,动脉和静脉在眼底图像中共享相同的边界框。
本文的研究构建能够管理大量分割任务的单一基础模型的可行性,从而消除了对特定任务模型的需求。MedSAM 作为医学图像分割的首个基础模型,在加速新诊断和治疗工具的发展方面具有巨大潜力,并最终有助于改善患者护理