自监督学习兼顾语义对齐与空间分辨能力?清华、商汤提出SIM方法( 二 )


Target分支负责给出目标 。 它的编码器是Online分支编码器的滑动平均 , 并且接收第二张视图的所有图块并编码为目标特征z_b∈R^(N×D) 。
自监督学习兼顾语义对齐与空间分辨能力?清华、商汤提出SIM方法
文章图片
最后介绍解码器所需的位置编码是如何计算的 。 所有的图块都是以第一张视图x_a的左上角作为原点来计算的 。 具体来说 , 假设两张视图在原图中的位置信息分别为(i_1,j_1,h_1,w_1)和(i_2,j_2,h_2,w_2)(分别代表左上角横纵坐标与高度宽度) , 第一张视图的相对位置为:
自监督学习兼顾语义对齐与空间分辨能力?清华、商汤提出SIM方法
文章图片
第二张视图的相对位置为:
自监督学习兼顾语义对齐与空间分辨能力?清华、商汤提出SIM方法
文章图片
对于第二张图 , 尺度变化也被进一步加入位置信息中:
自监督学习兼顾语义对齐与空间分辨能力?清华、商汤提出SIM方法
文章图片
自监督学习兼顾语义对齐与空间分辨能力?清华、商汤提出SIM方法】最后 , 这些信息输入到sincos位置编码函数中得到如下位置编码:
自监督学习兼顾语义对齐与空间分辨能力?清华、商汤提出SIM方法
文章图片
损失函数
SIM采用UniGrad作为损失函数:
自监督学习兼顾语义对齐与空间分辨能力?清华、商汤提出SIM方法
文章图片
UniGrad被采用主要出于两个原因:(1)这种对比函数是ID方法的统一形式;(2)它对内存更加友好:注意到通常使用的InfoNCE损失函数需要O(|N|)的内存来计算相似度 , 这对于有大量负样本的密集层次损失函数是不现实的;而通过先计算负样本之间的相关矩阵 , UniGrad只需要O(D^2)的内存消耗 。
SIM尝试将UniGrad施加在全局层次和密集层次 , 全局损失函数用全局平均的特征作为整张图的特征:
自监督学习兼顾语义对齐与空间分辨能力?清华、商汤提出SIM方法
文章图片
而密集损失函数将每个图块作为单独的样本 , 并且为了减少与全局损失函数的冲突 , 每个图块的特征减去了全局平均特征:
自监督学习兼顾语义对齐与空间分辨能力?清华、商汤提出SIM方法
文章图片
最后的总体的损失函数为:
自监督学习兼顾语义对齐与空间分辨能力?清华、商汤提出SIM方法
文章图片
研究者发现在短轮数下 , (α_1=1,α_2=4)给出最好的性能取舍 。 有趣的是 , 当训练轮数足够长时 , 只使用密集损失函数(α_1=0,α_2=1)也能给出很好的线性分类性能 。
实验
主要结果
研究者在多种评估指标下对比了SIM和其它方法的性能 , 包括线性分类、ImageNet全数据微调、ImageNet1%数据微调、COCO上的物体检测与实例分割 。
线性分类方面 , SIM可以做到和MoCo-v3相当的水平 , 同时大幅超过MAE(400ep大约11个点 , 1600ep大约8个点);同时 , 即便不使用全局损失函数 , SIM也能给出不错的线性分类结果;
检测与分割任务上 , SIM超过了MoCo-v3大约2个点 , 也能在使用更短轮数的条件下达到与MAE相当的水平(400epv.s.1600ep);
微调任务上 , SIM在全数据微调时可以达到和之前方法相当的水平 , 而当只有1%数据可用时 , SIM能够超过MoCo-v32个点 , MAE14个点 。
消融实验
预测像素还是特征 。 表中(ab)和(de)说明 , 在使用相同视图作为输入和目标时 , 预测像素性能更好;而使用不同视图时 , 预测特征性能更好;
不同视图 。 表中(ae)和(cf)说明 , 使用不同视图能够提升线性分类大概7-13个点;
颜色增强 。 表中(ac)和(ef)说明 , 对于不同视图 , 颜色增强可以提升线性分类3.5个点 , 不过对于相同视图则没有这种提升效果 。 研究者猜测相同视图会将预测目标所采用的颜色增强泄露给模型 , 从而破坏了对颜色不变性的建模;