自监督学习兼顾语义对齐与空间分辨能力？清华、商汤提出SIM方法( 二 ) 机器之心专栏机器之心编辑部

Target分支负责给出目标。它的编码器是Online分支编码器的滑动平均，并且接收第二张视图的所有图块并编码为目标特征z_b∈R^(N×D) 。

文章图片
最后介绍解码器所需的位置编码是如何计算的。所有的图块都是以第一张视图x_a的左上角作为原点来计算的。具体来说，假设两张视图在原图中的位置信息分别为(i_1,j_1,h_1,w_1)和(i_2,j_2,h_2,w_2)（分别代表左上角横纵坐标与高度宽度），第一张视图的相对位置为：

文章图片
第二张视图的相对位置为：

文章图片
对于第二张图，尺度变化也被进一步加入位置信息中：

文章图片
【自监督学习兼顾语义对齐与空间分辨能力？清华、商汤提出SIM方法】最后，这些信息输入到sincos位置编码函数中得到如下位置编码：

文章图片
损失函数
SIM采用UniGrad作为损失函数：

文章图片
UniGrad被采用主要出于两个原因：（1）这种对比函数是ID方法的统一形式；（2）它对内存更加友好：注意到通常使用的InfoNCE损失函数需要O(|N|)的内存来计算相似度，这对于有大量负样本的密集层次损失函数是不现实的；而通过先计算负样本之间的相关矩阵， UniGrad只需要O(D^2)的内存消耗。
SIM尝试将UniGrad施加在全局层次和密集层次，全局损失函数用全局平均的特征作为整张图的特征：

文章图片
而密集损失函数将每个图块作为单独的样本，并且为了减少与全局损失函数的冲突，每个图块的特征减去了全局平均特征:

文章图片
最后的总体的损失函数为：

文章图片
研究者发现在短轮数下， (α_1=1,α_2=4)给出最好的性能取舍。有趣的是，当训练轮数足够长时，只使用密集损失函数(α_1=0,α_2=1)也能给出很好的线性分类性能。
实验
主要结果
研究者在多种评估指标下对比了SIM和其它方法的性能，包括线性分类、ImageNet全数据微调、ImageNet1%数据微调、COCO上的物体检测与实例分割。
线性分类方面， SIM可以做到和MoCo-v3相当的水平，同时大幅超过MAE（400ep大约11个点， 1600ep大约8个点）；同时，即便不使用全局损失函数， SIM也能给出不错的线性分类结果；
检测与分割任务上， SIM超过了MoCo-v3大约2个点，也能在使用更短轮数的条件下达到与MAE相当的水平（400epv.s.1600ep）；
微调任务上， SIM在全数据微调时可以达到和之前方法相当的水平，而当只有1%数据可用时， SIM能够超过MoCo-v32个点， MAE14个点。
消融实验
预测像素还是特征。表中（ab）和（de）说明，在使用相同视图作为输入和目标时，预测像素性能更好；而使用不同视图时，预测特征性能更好；
不同视图。表中（ae）和（cf）说明，使用不同视图能够提升线性分类大概7-13个点；
颜色增强。表中（ac）和（ef）说明，对于不同视图，颜色增强可以提升线性分类3.5个点，不过对于相同视图则没有这种提升效果。研究者猜测相同视图会将预测目标所采用的颜色增强泄露给模型，从而破坏了对颜色不变性的建模；