自监督学习新范式CAE:为什么 MIM 比对比学习更适合下游任务?( 二 )


损失函数 。 损失函数由两部分组成:(1)对解码器预测的监督 , 使用交叉熵损失;(2)对和的对齐的监督 , 使用MSE损失 。
3.分析
3.1CAE关注每个patch的表征
CAE基于可见patch的表征 , 从随机采样的掩码patch中做一些预测 , 这要求CAE关注每个patch的语义 。 这不同于典型的对比学习方法(例如MoCov3,SimCLR) , 不是只关注图像的全局语义而忽略图像的细节和非主体区域(比如背景) 。
3.2Latentcontextualregressor的输出和编码器的输出在同一编码空间中
该研究对Latentcontextualregressor的输出做了约束 , 希望它能和编码器的输出尽可能接近 。 这样 , 解码器会基于编码器学到的编码空间做预测 , 将对图像的特征提取的重任完全交到了编码器手上 , 驱使编码器学习到好的表征 。
为了验证这一点 , 该研究用RGB值作为解码器目标(考虑到TokenID难以可视化 , 这里使用RGB) , 训练CAE 。 在测试的时候 , 该研究将全部patch输入到编码器 , 然后跳过Latentcontextualregressor , 直接将编码器的输出送进解码器 , 预测全部patch的RGB的值 。 下图展示了预测结果 , 第一行是原图 , 第二行是预测 , 研究者发现仅使用编码器和解码器就可以将图片重建出来 , 说明编码器的输出和Latentcontextualregressor的输出属于同一编码空间 。
自监督学习新范式CAE:为什么 MIM 比对比学习更适合下游任务?
文章图片
如果训练时不做对齐约束 , 那么就无法重建 , 如下图所示 , 输出都是乱码 , 说明编码器输出和Latentcontextualregressor的输出不在一个编码空间中 。 这使得编码器学到的表征质量有所欠缺 , 在消融实验部分也有验证 。
自监督学习新范式CAE:为什么 MIM 比对比学习更适合下游任务?
文章图片
3.3CAE学到的表征可以区分不同类别的对象/stuff
CAE基于可见patch的表征 , 在掩码patch区域做预测 , 这要求CAE对可见patch的内容有比较好的理解 。 举例来说 , 人们看到一只狗的头部 , 可以预测出它的身体部分;看到一小片天空 , 也能预测出它的周围大概率也是一片天空 。 因此 , 研究者认为CAE学到的表征可以区分不同类别的对象/stuff 。 为了验证这一点 , 研究者从ADE20K数据集随机采样一些图片输入到编码器 。 因为ADE20K提供了每个像素的类别标签(150类) , 因此该研究可以使用t-SNE对编码器输出的表征进行可视化 。 如下图所示 , 每个颜色代表一个类别 , 左图是CAE , 右图是随机初始化的编码器 。 研究者发现CAE可以有效区分不同类别的对象/stuff(因为是在ImageNet-1K进行预训练 , 所以区分得不够完美) , 而随机初始化的编码器无法做到这一点 。
自监督学习新范式CAE:为什么 MIM 比对比学习更适合下游任务?
文章图片
3.4典型的对比学习为什么在下游任务只能取得跟监督预训练差不多的结果?
在对比学习中 , 随机剪裁(randomcrop)是一个非常重要的数据增强策略 。 典型的对比学习(比如MoCov3)希望最大化来自同一图像的2个不同剪裁之间的全局语义相似度 , 而最小化来自不同图像的剪裁之间的相似度 。
这样为什么能奏效呢?研究者首先分析了随机剪裁的性质 。 在SimCLR论文中提到 , 随机剪裁是对比学习方法中非常重要的数据增强策略 。 在ImageNet-1K数据集中 , 图像的主体对象大多处于图像的中心区域 , 而对图像进行随机剪裁 , 中心区域有很大的概率被囊括进去 , 例如下图展示的几个例子 , 几次剪裁基本都包括了图像的主体对象 。
自监督学习新范式CAE:为什么 MIM 比对比学习更适合下游任务?
文章图片