0-GlanceSeg: Real-time microangioma lesion segmentation with gaze map-guided foundation model for early detection of diabetic retinopathy
GlanceSeg:利用凝视图引导基础模型进行实时微动脉瘤病变分割,用于早期检测糖尿病视网膜病变
arXiv:2311.08075v1 [eess.IV] 14 Nov 2023
背景
早期糖尿病视网膜病变(DR)因微动脉瘤病变不明显且微小,临床诊断困难,相关研究有限。现有计算机辅助诊断(CAD)系统虽诊断性能好,但推理过程缺乏透明度,且早期检测能力不足,对标注数据依赖大。眼科医生诊断过程中,注视区域与诊断结果相关,但微小病变易被遗漏。将注视图(gaze map)作为注意力机制,可增强病变区域检测。基础模型(如 SAM)的出现为医学图像分割带来新可能,但直接应用于医学领域存在分割结果不一致问题,需探索有效提示点以实现精准分割。
提出基于 SAM 的 GlanceSeg 框架,实现眼科医生查看眼底图像时微动脉瘤病变的实时分割,辅助早期 DR 诊断。
验证 GlanceSeg 在无监督和微调情况下的有效性与优越性,提高临床医生诊断效率和分割性能。
第一行包括原始眼底图像 (a) 和其相应注释图像 (b),均来自 Retinal-Lesions 数据集。同样,第二行派生自 IDRiD 数据集。在内部,绿色实心框是眼底图像上不显眼的小病灶的放大视图,表明早期眼底疾病检测任务的难度。
实验方法
提出的基于 SAM 的实时凝视地图引导的早期 DR 检测框架(即 GlanceSeg)的管道。它将凝视图集成为自上而下的注意力,将显著性图集成为自下而上的注意力,从而在临床医生查看图像时实时分割小病灶。或者,可以通过对注释进行微调来增强 GlanceSeg 的性能。
临床诊断设置与眼动追踪采集
使用 Tobii Pro Spectrum 桌面眼动追踪器,在临床诊断中记录医生查看图像时的注视点,医生首次使用需进行 9 点校准,图像查看时实时记录注视点。
多注意力机制构建
自上而下注意力计算:用高斯函数将注视点转换为注视区域,计算注意力分散分数(ADS)衡量医生注意力聚焦程度,基于此得到自上而下的注视图。
感兴趣区域(ROI)提取与自下而上注意力增强:通过二值化注视图确定 ROI 范围,计算中心并裁剪子图像,再用高斯滤波模板增强 ROI 图像。
自下而上注意力计算:采用频率调谐(FT)显著区域检测方法和快速最小障碍距离(MBD)显著图计算方法,融合得到组合显著图,模拟图像内容引起的自下而上注意力。
基于生成提示点的 SAM 分割
构建网格点坐标集,从二值化显著图中提取显著点坐标,取两者交集作为最终提示点,利用 SAM 的零样本分割能力检测眼底微小病变。
通过领域知识过滤优化病变分割
提出领域知识过滤(DKF)模块,基于形状(如圆形度)、颜色(如 LAB 颜色空间中红色成分)和纹理(如局部区域平滑度)特征,筛选出符合目标病变特征的微动脉瘤病变,减少假阳性。
实验结果
使用 IDRiD 和 Retinal - Lesions 两个公开数据集,分别随机划分训练集和测试集,用于训练和评估 GlanceSeg 框架。
(a) 和 (b) 是来自 Retinal-Lesions 的说明性示例, (c) 和 (d) 来自 IDRiDdataset。每个示例的第一行依次表示由眼动追踪引导提取的眼底感兴趣区域 (ROI)、ROI 的显著图和经过二值化的后处理图。第二行类似于第一行,区别在于 ROI 已经经历了初步的图像增强处理进行优化。黄箭突出了微血管男性化,这是诊断糖尿病视网膜病变的早期指标。
医生查看和诊断图像分析
邀请不同经验的眼科医生对眼底图像进行 DR 分级,经验丰富的医生诊断准确性更高、耗时更短,早期 DR(DR0 和 DR1)诊断对初级医生更具挑战性,因此本研究专注于辅助 DR1 诊断。
GlanceSeg 零样本性能可视化
基于眼动追踪确定 ROI,计算显著图,通过不同采样大小(N)生成提示点进行 SAM 分割,结果表明 N = 100 时分割效果较好,引入领域知识过滤可排除假阳性。
与现有方法对比
监督学习方法在有限训练集上 AUPR 约为 0.5,传统 UNet 性能最差,CLC - Net 最佳。SAM 在原始图像均匀采样提示点下分割效果差(AUPR = 0.1762),而 GlanceSeg 零样本方法 AUPR 达 0.5523,微调后性能进一步提升(AUPR = 0.5705,DICE = 0.3944)。
GlanceSeg 注释效率评估
GlanceSeg 能实时呈现疑似微动脉瘤病变,辅助医生进行像素级注释。实验表明,初级和高级医生在使用 GlanceSeg 时注释效率均显著提高。
(a) 比较两名具有可比经验的临床医生、有 GlanceSeg 协助的临床医生 B 与没有帮助的临床医生 A 的注释时间。(b) 比较临床医生在两个大小相等的紧密分布的数据组上的注释时间。第 2 组采用 GlanceSeg 辅助注释,而第 1 组没有从这种辅助中受益。
GlanceSeg 诊断性能评估
GlanceSeg 辅助诊断时,初级医生早期 DR 分级准确性提高、诊断时间缩短、注意力分散分数降低;高级医生早期诊断时间缩短,但准确性略有下降,可能因其对微小病变敏感,GlanceSeg 对非早期 DR 分类帮助不大。
消融实验
验证基于显著图的提示点和领域知识过滤对性能的提升作用,两者结合可实现最佳性能。
IDRiD(a) 和 Retinal-Lesions(b) 数据集上三个消融实验组的精确率/召回率曲线图的比较。在内部,SM 是显著性图的缩写,而 DKF 代表领域知识过滤器。
超参数敏感性分析
研究生成提示点时采样点数 N 的影响,N 增加会使提示点数量和模型推理时间增加,N = 100 时 AUPR 达到最优(IDRiD 数据集为 0.5523,Retinal - Lesions 数据集为 0.6817)。
在不同样本点维度大小 (N) 下比较两个数据集的提示点和模型推理时间的小提琴图。
基于上述两个数据集在不同超参数下的 AUPR 比较分析:调查样本提示点维度大小 (N) 的影响。
总结
提出的 GlanceSeg 框架结合注视图、显著图和领域知识过滤,实现早期 DR 的实时、无监督诊断,提高诊断性能和注释效率。GlanceSeg 可通过微调进一步提升分割性能,为模型优化提供新方向,有望实现早期 DR 检测的持续学习和卓越性能。