Swin Transformer遇DCN,可变形注意力Transformer模型优于多数ViT

机器之心报道
编辑:小舟
本文中 , 来自清华大学、AWSAI和北京智源人工智能研究院的研究者提出了一种新型可变形自注意力模块 , 其中以数据相关的方式选择自注意力中键值对的位置 , 使得自注意力模块能够专注于相关区域 , 并捕获更多信息特征 。
Transformer近来在各种视觉任务上表现出卓越的性能 , 感受野赋予Transformer比CNN更强的表征能力 。 然而 , 简单地扩大感受野会引起一些问题 。 一方面 , 使用密集注意力(例如ViT)会导致过多的内存和计算成本 , 并且特征可能会受到超出兴趣区域的无关部分的影响;另一方面 , PVT或SwinTransformer中采用的稀疏注意力与数据无关 , 可能会限制对远程(longrange)关系建模的能力 。
为了缓解这些问题 , 清华大学、AWSAI和北京智源人工智能研究院的研究者提出了一种新型可变形自注意力模块 , 其中以数据相关的方式选择自注意力中键值对的位置 。 这种灵活的方案使自注意力模块能够专注于相关区域并捕获更多信息特征 。
在此基础上 , 该研究提出了可变形注意力Transformer(DeformableAttentionTransformer , DAT) , 一种具有可变形注意力的通用主干网络模型 , 适用于图像分类和密集预测任务 。 该研究通过大量基准测试实验证明了该模型的性能提升 。
Swin Transformer遇DCN,可变形注意力Transformer模型优于多数ViT
文章图片
论文地址:https://arxiv.org/abs/2201.00520v1
可变形注意力Transformer
现有的分层视觉Transformer , 特别是PVT和SwinTransformer试图解决过多注意力的挑战 。 前者的下采样技术会导致严重的信息损失 , 而后者的Swin注意力导致感受野的增长要慢得多 , 这限制了对大型物体进行建模的潜力 。 因此 , 需要依赖于数据的稀疏注意力来灵活地对相关特征进行建模 , 从而导致首先在DCN[9]中提出可变形机制 。
然而 , 在Transformer模型中实现DCN是一个不简单的问题 。 在DCN中 , 特征图上的每个元素单独学习其偏移量 , 其中H×W×C特征图上的3×3可变形卷积具有9HWC的空间复杂度 。 如果在注意力模块中直接应用相同的机制 , 空间复杂度将急剧上升到N_qN_kC , 其中N_q、N_k是查询和键的数量 , 通常与特征图大小HW具有相同的比例 , 带来近似于双二次的复杂度 。
尽管DeformableDETR[54]已经设法通过在每个尺度上设置较少数量的N_k=4的键来减少这种开销 , 并且可以很好地作为检测头 , 但由于不可接受的信息丢失(参见附录中的详细比较) , 在骨干网络中关注如此少的键效果不佳 。 与此同时 , [3,52]中的观察表明 , 不同的查询在视觉注意力模型中具有相似的注意力图 。 因此 , 该研究选择了一个更简单的解决方案 , 为每个查询共享移位键和值 , 以实现有效的权衡 。
模型架构
该研究在Transformer(等式(4))中的可变形注意力替换了vanillaMHSA , 并将其与MLP(等式(5))相结合 , 以构建一个可变形的视觉transformer块 。 在网络架构方面 , DAT与[7,26,31,36]共享类似的金字塔结构 , 广泛适用于需要多尺度特征图的各种视觉任务 。 如下图3所示 , 形状为H×W×3的输入图像首先被步长为4的4×4非重叠卷积嵌入 , 然后一个归一化层获得
Swin Transformer遇DCN,可变形注意力Transformer模型优于多数ViT
文章图片
补丁嵌入 。
Swin Transformer遇DCN,可变形注意力Transformer模型优于多数ViT
文章图片
为了构建分层特征金字塔 , 主干包括4个阶段 , 步幅逐渐增加 。 在两个连续的阶段之间 , 有一个步长为2的非重叠2×2卷积 , 对特征图进行下采样 , 将空间大小减半并将特征维度加倍 。