清华大学提出DAT | DCN+Swin Transformer会碰撞出怎样的火花?( 四 )


3.3模型架构
清华大学提出DAT | DCN+Swin Transformer会碰撞出怎样的火花?
文章图片
在网络架构方面 , 模型“可变形注意变换器”与PVT等具有相似的金字塔结构 , 广泛适用于需要多尺度特征图的各种视觉任务 。 如图3所示 , 首先对形状为H×W×3的输入图像进行4×4不重叠的卷积嵌入 , 然后进行归一化层 , 得到H4×W4×C的patch嵌入 。 为了构建一个层次特征金字塔 , Backbone包括4个阶段 , stride逐渐增加 。 在2个连续的阶段之间 , 有一个不重叠的2×2卷积与stride=2来向下采样特征图 , 使空间尺寸减半 , 并使特征尺寸翻倍 。
在分类任务中 , 首先对最后一阶段输出的特征图进行归一化处理 , 然后采用具有合并特征的线性分类器来预测logits 。
在目标检测、实例分割和语义分割任务中 , DAT扮演着Backbone的作用 , 以提取多尺度特征 。
这里为每个阶段的特征添加一个归一化层 , 然后将它们输入以下模块 , 如目标检测中的FPN或语义分割中的解码器 。
在DAT的第三和第四阶段引入了连续的LocalAttention和DeformableAttentionBlock 。 特征图首先通过基于Window的LocalAttention进行处理 , 以局部聚合信息 , 然后通过DeformableAttentionBlock对局部增强token之间的全局关系进行建模 。 这种带有局部和全局感受野的注意力块的替代设计有助于模型学习强表征 , 在GLiT、TNT和Point-Former 。
由于前两个阶段主要是学习局部特征 , 因此在这些早期阶段的DeformableAttention不太适合 。
此外 , 前两个阶段的key和value具有较大的空间大小 , 大大增加了DeformableAttention的点积和双线性插值的计算开销 。 因此 , 为了实现模型容量和计算负担之间的权衡 , 这里只在第三和第四阶段放置DeformableAttention , 并在SwinTransformer中采用ShiftWindowAttention , 以便在早期阶段有更好的表示 。 建立了不同参数和FLOPs的3个变体 , 以便与其他VisionTransformer模型进行公平的比较 。 通过在第三阶段叠加更多的块和增加隐藏的维度来改变模型的大小 。 详细的体系结构见表1 。
清华大学提出DAT | DCN+Swin Transformer会碰撞出怎样的火花?
文章图片
请注意 , 对于DAT的前两个阶段 , 还有其他的设计选择 , 例如 , PVT中的SRA模块 。 比较结果见表7 。
4实验
4.1ImageNet-1K图像分类
清华大学提出DAT | DCN+Swin Transformer会碰撞出怎样的火花?
文章图片
在表2中报告了的结果 , 有300个训练周期 。 与其他最先进的ViT相比 , DAT在类似的计算复杂性上实现了Top-1精度的显著改进 。 我们的DAT方法在所有三个尺度上都优于SwinTransformer、PVT、DPT和DeiT 。 在没有在TransformerBlock中插入卷积 , 或在Patch嵌入中使用重叠卷积的情况下 , 比SwinTransformer对应的数据获得了+0.7、+0.7和+0.5的提升 。 当在384×384分辨率下进行微调时 , 比SwinTransformer表现好0.3% 。
4.2COCO目标检测
清华大学提出DAT | DCN+Swin Transformer会碰撞出怎样的火花?
文章图片
如表3所示 , DAT在小型模型中的性能分别超过Swin变压器1.1和1.2mAP 。
清华大学提出DAT | DCN+Swin Transformer会碰撞出怎样的火花?
文章图片
当在两阶段检测器中实现时 , 如MaskR-CNN和CascadeMaskR-CNN , 模型比不同尺寸的SwinTransformer模型实现了一致的改进 , 如表4所示 。 可以看到 , 由于建模随机依赖关系的灵活性 , DAT在大型目标上实现了对其(高达+2.1)的改进 。 小目标检测和实例分割的差距也很明显(高达+2.1) , 这表明DATs也具有在局部区域建模关系的能力 。
4.3ADE20K语义分割