清华大学提出DAT | DCN+Swin Transformer会碰撞出怎样的火花?( 二 )


清华大学提出DAT | DCN+Swin Transformer会碰撞出怎样的火花?】具体来说:
对于每个注意力模块 , 首先将参考点生成为统一的网格 , 这些网格在输入数据中是相同的;
然后 , offset网络将query特征作为输入 , 并为所有参考点生成相应的offset 。 这样一来 , 候选的key/value被转移到重要的区域 , 从而增强了原有的自注意力模块的灵活性和效率 , 从而捕获更多的信息特征 。
2相关工作
2.1ViTBackbone
自引入ViT以来 , 改进的重点是密集预测任务的多尺度特征学习和高效的注意力机制 。 这些注意力机制包括WindowAttention、GlobalToken、FocalAttention和动态TokenSize 。
最近 , 基于卷积的方法被引入到VisionTransformer模型中 。 其中 , 已有的研究集中在用卷积运算来补充变压器模型 , 以引入额外的电感偏差 。 CvT在标记化过程中采用卷积 , 利用步幅卷积来降低自注意的计算复杂度 。 带卷积茎的ViT建议在早期添加卷积 , 以实现更稳定的训练 。 CSwinTransformer采用了基于卷积的位置编码技术 , 并显示了对下游任务的改进 。 这些基于卷积的技术中有许多可以应用于DAT之上 , 以进一步提高性能 。
2.2DCN和Attention
可变形卷积是一种强大的机制 , 可以处理基于输入数据的灵活空间位置 。 最近 , 它已被应用于VisionTransformer 。 DeformableDETR通过在CNNBackbone的顶部为每个query选择少量的key来提高DETR的收敛性 。 由于缺少key限制了其表示能力 , 其DeformableAttention不适合用于特征提取的视觉Backbone 。
此外 , DeformableDETR中的注意力来自简单的线性投影 , querytoken之间不共享key 。 DPT和PS-ViT构建DeformableBlock来细化视觉token 。 具体来说 , DPT提出了一种DeformablePatchEmbedding方法来细化跨阶段的Patch , PS-ViT在ViTBackbone前引入了空间采样模块来改善视觉Token 。 它们都没有把DeformableAttention纳入视觉中枢 。
相比之下 , 本文的DeformableAttention采用了一种强大而简单的设计 , 来学习一组在视觉token之间共享的全局key , 并可以作为各种视觉任务的一般Backbone 。 本文方法也可以看作是一种空间适应机制 , 它在各种工作中被证明是有效的 。
3
DeformableAttentionTransformer
清华大学提出DAT | DCN+Swin Transformer会碰撞出怎样的火花?
文章图片
3.1Preliminaries
首先在最近的VisionTransformer中回顾了注意力机制 。 以Flatten特征图为输入 , M头自注意力(MHSA)块表示为:
清华大学提出DAT | DCN+Swin Transformer会碰撞出怎样的火花?
文章图片
其中 , 表示softmax函数 , d=C/M为每个Head的尺寸 。 z(m)表示第m个注意力头的嵌入输出 ,
通过归一化层和shortcuts , 第1个TransformerBlock被表示为:
清华大学提出DAT | DCN+Swin Transformer会碰撞出怎样的火花?
文章图片
其中LN表示层归一化 。
3.2DeformableAttention
现有的分层VisionTransformer , 特别是PVT和SwinTransformer试图解决过度关注的问题 。 前者的降采样技术会导致严重的信息丢失 , 而后者的注意力转移会导致感受野的增长要慢得多 , 这限制了建模大物体的潜力 。 因此 , 需要依赖数据的稀疏注意力来灵活地建模相关特征 , 这也孕育了在DCN中提出的可变形的机制 。
然而 , 简单地在Transformer模型中实现DCN是一个重要的问题 。 在DCN中 , 特征图上的每个元素分别学习其offset , 其中H×W×C特征图上的3×3可变形卷积的空间复杂度为9HWC 。 如果直接在自注意力模块应用相同的机制 , 空间复杂度将急剧上升到 , 、为query和key的数量 , 通常有相同的尺度特征图大小HW , 带来近似双二次复杂度 。