自监督学习新范式CAE:为什么 MIM 比对比学习更适合下游任务?( 三 )


对同一图像的不同剪裁提取全局语义 , 实际上学到的是原始图像中主体对象的特征 , 正因如此 , 同一图像的不同剪裁之间才可能相似 。 在监督预训练中 , 受到图像分类标签的约束 , 网络学习到的也是图像主体区域的特征 , 这和对比学习学到的知识有很大的相似之处 , 因此在下游任务表现类似 。
3.5MIM和对比学习的区别
自监督学习新范式CAE:为什么 MIM 比对比学习更适合下游任务?】MIM方法(例如CAE)基于可见patch的表征 , 对掩码patch区域做预测 。 在做随机掩码时 , 图像的每个patch(例如背景区域的对象/stuff)都有可能被考虑到 , 而不仅仅是图像的主体区域 。 为了做好掩码patch的预测 , CAE会学好每个patch的表征 。