Swin Transformer遇DCN，可变形注意力Transformer模型优于多数ViT( 二 ) 机器之心报道编辑：小舟本文

在分类任务中，该研究首先对最后阶段输出的特征图进行归一化，然后采用具有池化特征的线性分类器来预测对数；在对象检测、实例分割和语义分割任务中， DAT在集成视觉模型中扮演主干的角色，以提取多尺度特征。该研究为每个阶段的特征添加一个归一化层，然后将它们输入到以下模块中，例如对象检测中的FPN[23]或语义分割中的解码器。
实验
该研究在3个数据集上进行了实验，以验证提出的DAT的有效性。该研究展示了在ImageNet-1K[10]分类、COCO目标检测和ADE20K语义分割任务上的结果。此外，该研究提供了消融研究和可视化结果，以进一步展示该方法的有效性。
ImageNet-1K分类
ImageNet-1K[10]数据集有128万张用于训练的图像和5万张用于验证的图像。研究者在训练分割上训练DAT的三个变体，并报告验证分割上的Top-1准确度，并与其他VisionTransformer模型进行比较。
该研究在下表2中给出了有300个训练epoch的结果。与其他SOTA视觉Transformer模型相比， DAT在具有相似计算复杂性的情况下在Top-1精度上实现了显著提高。 DAT在所有三个尺度上都优于SwinTransformer[26]、PVT[36]、DPT[7]和DeiT[33] 。没有在Transformer块[13,14,35]中插入卷积，或在补丁嵌入[6,11,45]中使用重叠卷积， DAT比SwinTransformer[26]实现了+0.7、+0.7和+0.5的增益。在384×384分辨率下进行微调时，该模型继续比SwinTransformer性能好0.3 。

文章图片
COCO目标检测
COCO目标检测和实例分割数据集有118K的训练图像和5K的验证图像。该研究使用DAT作为RetinaNet[24]、MaskR-CNN[17]和CascadeMaskR-CNN[2]框架中的主干，以评估该方法的有效性。该研究在ImageNet-1K数据集上对该模型进行300个epoch的预训练，并遵循SwinTransformer[26]中类似的训练策略来公平地比较该方法。该研究在1x和3x训练计划中报告在RetinaNet模型上的DAT 。如下表3所示，在微型和小型模型中， DAT的性能优于SwinTransformer1.1和1.2mAP 。

文章图片
【Swin Transformer遇DCN，可变形注意力Transformer模型优于多数ViT】当在两阶段检测器（例如MaskR-CNN、CascadeMaskR-CNN）中实现时， DAT模型在不同尺寸的SwinTransformer模型上实现了一致的改进，如下表4所示。

文章图片
下表5给出了在验证集上各种方法的mIoU分数。

文章图片
消融实验
为了验证DAT模型中关键组件设计的有效性，该研究进行了消融实验，报告了基于DAT-T的ImageNet-1K分类结果。对于几何信息开发，该研究首先评估了所提可变形偏移和可变形相对位置嵌入的有效性，如下表6所示。

文章图片
对于不同阶段的可变形注意力，该研究用不同阶段的可变形注意力替换了SwinTransfomer[26]的移位窗口注意力。如下表7所示，仅替换最后阶段的注意力提高了0.1 ，替换最后两个阶段导致性能增益为0.7（达到82.0的整体准确度）。然而，在早期阶段用更多可变形注意力替换会略微降低准确性。

文章图片
可视化
该研究在DAT中可视化学习变形位置的示例，以验证该方法的有效性。如下图4所示，采样点描绘在对象检测框和实例分割掩码的顶部，从中可以看到这些点已转移到目标对象。