0-TP-DRSeg: Improving Diabetic Retinopathy Lesion Segmentation with Explicit Text-Prompts Assisted SAM
TP-DRSeg:使用显式文本提示辅助 SAM 改进糖尿病视网膜病变病变分割
MICCAI 2024, LNCS 15008, pp. 743–753, 2024.
https://doi.org/10.1007/978-3-031-72111-3_70
背景
SAM在识别糖尿病视网膜病变 (DR) 病变分割有一定挑战。本文提出了一种将 SAM 用于文本提示的 DR 病变分割的框架,称为 TP-DRSeg。核心思想是利用语言线索将医学先验知识注入纯视觉分割网络,从而结合不同基础模型的优势,增强分割的可信度。提出了一个显式的先验编码器,将隐含的医学概念转化为明确的先验知识,为挖掘与病变相关的低级特征提供可解释的线索。此外设计了一个先验对齐的注入器,将显式的先验注入到分割过程中,这可以促进跨多模态特征的知识共享,并允许框架以参数高效的方式进行训练。
DR分割包括:有效监测微动脉瘤 (MAs)、出血 (HEs)、硬分泌物 (EX) 和软渗出物 (SEs) 等神经病变。
SAM的缺点:
原SAM严重依赖手动提示,例如点和框(图(a)i)。然而,由于 DR 病灶体积小且数量众多,手动提示变得劳动密集型,使得这种方法对于临床应用不切实际。一些方法引入了上下文提示,从全局角度调整 SAM(图(a)ii),但它们难以处理局部病变,导致性能欠佳。参数高效的在线调整方法(图(a)iii)通过调整有限数量的参数来使SAM适应下游任务,但这些方法忽略了基于提示的策略来实现自动推理。SAM相关的方法难以区分细粒度的 DR 病变类别,通常只能生成与类别无关的掩码。
视觉语言模型 (VLM) 能够将图像与相应的文本描述对齐,那么VLM是否可以使用文本线索协助视觉模型定位病灶,提高区分不同病灶的准确性并增强分割的可信度?
(a)现有方法与本文提出的方法的比较。
(b) CLIP 生成的类激活图。左下角利用隐式类名(hard exudate) 中的文本嵌入。右下角采用来自病变(黄白色沉积物)的明确描述的文本嵌入。
本文提出了一个显式先验编码器(图(a)iv),它利用病变的显式描述而不是隐式类名来生成可解释的线索,用于分割和分布类间差异。DR 病变的形态学外观可以用 VLM 易于理解的特定描述来表示,例如将硬质渗出物描绘成黄白色沉积物。这些可解释的线索提高了分割过程中的可信度。此外,在 SAM 编码器中引入了一个先验对齐的注入器,以将基于文本的外部先验注入到分割过程中,使 VLM 和纯视觉模型之间的知识共享和对齐。最后,特定于类的提示生成器生成为文本提示输入量身定制的特定提示,这些提示随后被馈送到 SAM 解码器中以生成相应的响应分割掩码。
实验方法
由4个部分构成:
- 基于 VLM 的显式先验编码器
- 带有先验对齐注入器的 SAM 编码器
- 特定于类的提示生成器
- SAM 解码器
显式先验编码器提取可解释的线索并生成用于分割的先验知识。然后将这个显式的先验输入到先验对齐的注入器中,以将先验知识注入到特征编码过程中。特定于类的提示生成器根据提供的基于文本的类生成分割图。
显式先验编码器
与现有的纯视觉 DR 分割方法不同,采用语言模态来提供分割中的外部知识。通过 VLM 中强大图像-文本知识(例如 CLIP )对其进行预处理,最终生成显式先验信息,提供了可解释的线索,从而提高了分割过程的可信度。
先验对齐注入器的 SAM 编码器
(a) 先验对齐的注入器(Injector) (b) 类特定的提示生成的详细架构
由于预先训练的 SAM 和 CLIP 模型中嵌入的知识不会相互 “看到”,并且在集成之前保持孤立状态,因此构建交互桥梁至关重要,以确保表示在统一的特征空间内对齐。还需要一种机制将外部知识注入到分割过程中。
在每个编码器层中有一个先验对齐的 injector (图 a),旨在促进分割和视觉语言模型之间的知识共享。
特定于类的提示生成器
该模块包含基于文本提示的显式先验,以指导病灶分割的提示生成。利用原始的 SAM 解码器来处理密集和稀疏嵌入以进行病变分割。密集嵌入提供全局指导,而稀疏嵌入保留有关病变的更多详细信息,进一步促进病变分离。最后SAM 解码器输出预测图。
实验结果
IDRiD和DDR数据集上的模型性能。
定性比较和可视化特征图。
总结
本文中研究了语言线索如何有利于 DR 病变分割,并在文本提示方案中提出了一种新的框架TP-DRSeg。显式的先验编码器通过基于文本的提示提供可解释的线索。先验对齐的注入器有效地在分割过程中注入明确的先验知识,并以参数高效的方式实现框架训练。