Swin Transformer遇DCN,可变形注意力Transformer模型优于多数ViT( 二 )


在分类任务中 , 该研究首先对最后阶段输出的特征图进行归一化 , 然后采用具有池化特征的线性分类器来预测对数;在对象检测、实例分割和语义分割任务中 , DAT在集成视觉模型中扮演主干的角色 , 以提取多尺度特征 。 该研究为每个阶段的特征添加一个归一化层 , 然后将它们输入到以下模块中 , 例如对象检测中的FPN[23]或语义分割中的解码器 。
实验
该研究在3个数据集上进行了实验 , 以验证提出的DAT的有效性 。 该研究展示了在ImageNet-1K[10]分类、COCO目标检测和ADE20K语义分割任务上的结果 。 此外 , 该研究提供了消融研究和可视化结果 , 以进一步展示该方法的有效性 。
ImageNet-1K分类
ImageNet-1K[10]数据集有128万张用于训练的图像和5万张用于验证的图像 。 研究者在训练分割上训练DAT的三个变体 , 并报告验证分割上的Top-1准确度 , 并与其他VisionTransformer模型进行比较 。
该研究在下表2中给出了有300个训练epoch的结果 。 与其他SOTA视觉Transformer模型相比 , DAT在具有相似计算复杂性的情况下在Top-1精度上实现了显著提高 。 DAT在所有三个尺度上都优于SwinTransformer[26]、PVT[36]、DPT[7]和DeiT[33] 。 没有在Transformer块[13,14,35]中插入卷积 , 或在补丁嵌入[6,11,45]中使用重叠卷积 , DAT比SwinTransformer[26]实现了+0.7、+0.7和+0.5的增益 。 在384×384分辨率下进行微调时 , 该模型继续比SwinTransformer性能好0.3 。
Swin Transformer遇DCN,可变形注意力Transformer模型优于多数ViT
文章图片
COCO目标检测
COCO目标检测和实例分割数据集有118K的训练图像和5K的验证图像 。 该研究使用DAT作为RetinaNet[24]、MaskR-CNN[17]和CascadeMaskR-CNN[2]框架中的主干 , 以评估该方法的有效性 。 该研究在ImageNet-1K数据集上对该模型进行300个epoch的预训练 , 并遵循SwinTransformer[26]中类似的训练策略来公平地比较该方法 。 该研究在1x和3x训练计划中报告在RetinaNet模型上的DAT 。 如下表3所示 , 在微型和小型模型中 , DAT的性能优于SwinTransformer1.1和1.2mAP 。
Swin Transformer遇DCN,可变形注意力Transformer模型优于多数ViT
文章图片
Swin Transformer遇DCN,可变形注意力Transformer模型优于多数ViT】当在两阶段检测器(例如MaskR-CNN、CascadeMaskR-CNN)中实现时 , DAT模型在不同尺寸的SwinTransformer模型上实现了一致的改进 , 如下表4所示 。
Swin Transformer遇DCN,可变形注意力Transformer模型优于多数ViT
文章图片
下表5给出了在验证集上各种方法的mIoU分数 。
Swin Transformer遇DCN,可变形注意力Transformer模型优于多数ViT
文章图片
消融实验
为了验证DAT模型中关键组件设计的有效性 , 该研究进行了消融实验 , 报告了基于DAT-T的ImageNet-1K分类结果 。 对于几何信息开发 , 该研究首先评估了所提可变形偏移和可变形相对位置嵌入的有效性 , 如下表6所示 。
Swin Transformer遇DCN,可变形注意力Transformer模型优于多数ViT
文章图片
对于不同阶段的可变形注意力 , 该研究用不同阶段的可变形注意力替换了SwinTransfomer[26]的移位窗口注意力 。 如下表7所示 , 仅替换最后阶段的注意力提高了0.1 , 替换最后两个阶段导致性能增益为0.7(达到82.0的整体准确度) 。 然而 , 在早期阶段用更多可变形注意力替换会略微降低准确性 。
Swin Transformer遇DCN,可变形注意力Transformer模型优于多数ViT
文章图片
可视化
该研究在DAT中可视化学习变形位置的示例 , 以验证该方法的有效性 。 如下图4所示 , 采样点描绘在对象检测框和实例分割掩码的顶部 , 从中可以看到这些点已转移到目标对象 。