0-Instance and Panoptic Segmentation Using Conditional Convolutions

Instance and Panoptic Segmentation Using Conditional Convolutions

IEEE TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE, VOL. 45, NO. 1, JANUARY 2023

背景

作者提出了一种实例和全景分割框架,其在COCO数据集上的表现优于其他几种最先进的方法,这种实例和全景分割框架称为”Condlnst(实例分割和条件卷积)”.

实例分割和全景分割是计算机视觉中的重要任务，需要算法对图像中的每个感兴趣实例进行像素级的分割，并为图像中的每个像素分配语义标签。全景分割在实例分割框架的基础上进一步要求对场景中的“stuff”进行分割，为图像中的每个像素分配语义标签。实例分割和全景分割面临着一个共同的挑战，即如何高效有效地区分个体实例。传统的方法通常采用Mask R-CNN等两阶段方法，通过ROI操作来关注每个实例，但这种方法存在一些缺点，如需要更大的计算量、固定的掩模头等。作者提出的Condlnst 框架，通过将实例分割和全景分割统一为完全卷积网络，消除了ROI裁剪和特征对齐的需要,由于动态生成的条件卷积容量大大提高，掩模头可以非常紧凑，从而大大加快每个实例的推理时间，在实例和全景分割任务上实现了最先进的性能，同时速度快且简单。

Condlnst动态生成过滤器,每个输出映射只包含一个实例的掩码.

实验方法

Condlnst用于实例分割的整体架构:通过使用实例敏感的卷积滤波器和相对坐标来动态生成掩模头，实现了对每个实例的关注。与传统的固定权重掩模头不同，Condlnst的掩模头参数根据要预测的实例进行调整，使得网络参数能够编码实例的特征，并且只在该实例的像素上激活，从而绕过了标准FCN中的困难。

CondInst整体框架

Condlnst结构可以分为四个主要部分:

**特征提取网络:**负责从输入图像中提取多尺度的特征图。这些特征图通常具有深度学习中的层级结构，表现为从浅层到深层的不同抽象级别。
特征金字塔网络: 特征金字塔网络是一种受人体视觉启发的结构，能够将高层次的语义信息与低层次的细节信息结合起来，产生一系列尺度的特征图，这对于检测不同尺寸的对象非常有用。
CondInst: 在这一模块，网络通过一组称作“head”的子网络来进行实际的实例分割。这些头部分别负责预测类别得分，边界框回归，以及产生实例分辨率的特定掩膜。掩膜生成是实例分割的核心，需要精准地为每个检测到的物体实例生成一个像素级的掩膜。
输出和后处理： 最后，网络结合来自头部网络的预测结果，并通过逐像素的分类来生成最终的实例分割掩膜。

以对实例分割掩码、类别预测和边界框预测进行监督学习为训练目标，使网络能够准确地预测每个物体实例的位置、类别和掩码。

模型细节:

实验使用了的MS COCO和Cityscapes数据集进行训练和评估。

在训练过程中，作者采用了多尺度数据增强策略，以提高模型的泛化能力。

基准掩码头采用了三个1x1卷积层，每个卷积层有8个通道，并使用ReLU作为激活函数，最后一层使用sigmoid函数预测前景的概率。

掩码头总共有169个参数，非常轻量级，相比Mask R-CNN等模型，计算复杂度大大降低。

改变底部分支输出特征图的通道数（C_bottom），实验结果表明，在合理范围内（从2到16），性能基本保持稳定。

生成的动态滤波器可以被视为轮廓的表示，与Mask R-CNN不同，Condlnst通过生成的滤波器编码实例的轮廓，因此可以轻松表示包括不规则形状在内的各种形状，更加灵活。

作者建议在Condlnst模型中使用上采样因子为2，因为这种设置在各项指标上表现较好。

在推断过程中去除边界框分支并使用基于掩码的NMS(非极大值抑制)，可以获得与基于边界框的NMS相似的性能。

实验结果

与先前最先进方法的比较

结果显示，Condlnst在1次学习率计划（90K迭代）下的性能优于原始的Mask R-CNN，并且比原始Mask R-CNN更快（每张图像在单个V100 GPU上）。

Condlnst还在性能上优于Detectron2中的Mask R-CNN。

通过更长的训练计划或更强大的骨干网络，如ResNet-101，也可以实现一致的改进。

通过辅助语义分割任务，Condlnst的性能可以从37.7%提升到38.6%（ResNet-50），或从39.1%提升到40.0%（ResNet-101），而推理时间不增加。

实时CondInst模型在COCO测试开发数据上的Mask AP和推理速度

实验结果表明，基于ResNet-50的Condlnst-RT在AP方面优于YOLACT++，并且几乎具有相同的推理速度。

使用更强大的骨干网络DLA-34，CondInst-RT可以实现47 FPS的速度，并保持类似的性能水平。

Cityscapes数据集上进行实例分割的实验

在Cityscapes数据集上，作者使用COCO风格的mask AP作为性能评估指标。实验结果表明，Condlnst在Cityscapes数据集上的表现优于之前的强基线模型Mask R-CNN，提高了超过1%的mask AP。

另外在Cityscapes数据集上，CondInst在全景分割任务上表现优异，超过了之前的方法，包括Panoptic-FPN等。与类似方法AdaptIS相比，CondInst在ResNet-101基础上取得了显着更好的性能，这表明在这里使用动态滤波器可能更为有效。与最近的方法（如Panoptic-FCN）相比，CondInst在全景分割任务上也取得了显著的性能提升。

总结

Condlnst是一个新的实例分割框架，通过动态生成掩码头部的滤波器，减少了参数和计算复杂度，提高了速度和准确性，同时无需更长的训练周期。它还可以简单地扩展到解决全景分割问题，并在COCO数据集上达到最先进的性能。

机器学习 > 论文笔记

0-Knowledge Mining with Scene Text for Fine-Grained Recognition 上一篇

0-Faster R-CNN 下一篇