自监督学习兼顾语义对齐与空间分辨能力？清华、商汤提出SIM方法机器之心专栏机器之心编辑部

机器之心专栏
机器之心编辑部
对于本文提出的全新自监督学习方法SiameseImageModeling中，网络从同一图像的遮盖视图预测另一个增强视图的密集特征，使其兼顾InstanceDiscrimination方法的语义对齐能力和MaskedImageModeling方法的空间分辨能力。

文章图片
论文链接：https://arxiv.org/abs/2206.01204
自监督学习长久以来都是视觉领域努力追求的目标，它能够帮助我们利用大量的无标注数据，并且推动了很多下游任务的进步。
为了有效地以自监督的方式训练网络，研究者们提出了各式各样的“代理任务”（pretexttask）来生成监督信号，其中最为典型的有两类框架：InstanceDiscrimination（ID）与MaskedImageModeling（MIM）。
ID方法希望拉近相同图像的不同增强视图，同时避免特征坍塌（包括MoCo、BYOL、BarlowTwins等方法）。这种方法学习到的特征往往具有很强的线性可分性，所以ID方法在线性分类任务上表现出色，但是近期的一些研究表明它在下游的检测任务上并不优于监督学习。另一方面， MIM方法通过一张遮盖图像来重建原始图像（包括BEiT、MAE等方法），它通常在检测任务上表现优异，但是不能做好线性分类任务，而且在少样本场景下表现一般。
为了解决这些矛盾，来自清华和商汤的研究者们提出：这种差异是因为两种方法各自忽略了特征所需要的语义对齐和空间分辨能力。具体来说：
语义对齐能力要求语义相似的图像能被映射到邻近的特征表示，这可以通过对比相同图像的不同增强视图来达到；空间分辨能力要求特征能够建模图像内部的空间结构，而通过遮盖图像去预测密集特征表示能够帮助达成这点，因为这种做法建模了图像内部的条件分布。

文章图片
基于这些思考，研究者提出了SiameseImageModeling（SIM），该方法通过一张遮盖的增强视图来预测相同图像的另一张增强视图的密集特征表示。
为了达到这个目标， SIM采用了孪生网络结构，该结构包含online和target两个分支。 Online分支首先将第一张遮盖视图映射到特征空间，然后基于第一张图的特征和第一、二张图的相对位置坐标来预测第二张图的特征；Target分支则负责将第二张图映射到特征空间来获得目标特征。
通过这种方式， SIM能够分别在线性分类任务上和ID方法持平，以及在检测任务上和MIM方法持平，研究者进一步发现即便没有全局的损失函数， SIM也能给出很好的线性分类表现。

文章图片
方法
数据增强
数据增强策略对于特征的学习有着非常重要的作用：ID方法已经揭示了更强的空间和颜色增强对于提升线性分类效果显著；MIM方法则采用了遮挡增强来帮助模型学习图像的局部结构。因此， SIM保留了ID方法中的强数据增强策略，同时对输入给online分支的视图采用遮挡增强策略。
预测目标
SIM被设计成去预测相同图像的不同增强视图的密集特征，这里将介绍预测和目标分别是如何计算的。
Online分支负责做出预测。它首先将第一张遮挡视图x_a映射成特征y_a∈R^(N_v×D) ，之后利用解码器g(?)基于特征y_a ，掩码词符m和他们的位置编码来做出预测

文章图片
其中， p_a是第一张视图x_a的位置编码， p_b^((u,v))对应第二张视图x_b在(u,v)处的图块的位置编码，它们会在下文介绍。