当自监督遇上语言-图像预训练,UC伯克利提出多任务框架SLIP

选自arXiv
机器之心编译
为了探究CV领域的自监督学习是否会影响NLP领域 , 来自加州大学伯克利分校和FacebookAI研究院的研究者提出了一种结合语言监督和图像自监督的新框架SLIP 。
近来一些研究表明 , 在具有挑战性的视觉识别任务上 , 自监督预训练可以改善监督学习 。 CLIP作为一种监督学习新方法 , 在各种基准测试中都表现出优异的性能 。
近日 , 为了探究对图像进行自监督学习的势头是否会进入语言监督领域 , 来自加州大学伯克利分校和FacebookAI研究院的研究者调查了CLIP形式的语言监督是否也受益于图像自监督 。 该研究注意到 , 将两种训练目标结合是否会让性能更强目前尚不清楚 , 但这两个目标都要求模型对有关图像的质量不同且相互矛盾的信息进行编码 , 因而会导致干扰 。
论文地址:https://arxiv.org/abs/2112.12750v1
项目地址:https://github.com/facebookresearch/SLIP
为了探索这些问题 , 该研究提出了一种结合语言监督和自监督的多任务框架SLIP(Self-supervisionmeetLanguage-ImagePre-training) , 并在YFCC100M的一个子集上预训练各种SLIP模型 , 又在三种不同的设置下评估了表征质量:零样本迁移、线性分类和端到端微调 。 除了一组25个分类基准之外 , 该研究还在ImageNet数据集上评估了下游任务的性能 。
当自监督遇上语言-图像预训练,UC伯克利提出多任务框架SLIP】该研究通过对不同模型大小、训练计划和预训练数据集进行实验进一步了验证了其发现 。 研究结果最终表明 , SLIP在大多数评估测试中都显著提高了性能 , 这表明在语言监督背景下自监督具有普遍效用 。 此外 , 研究者更详细地分析了该方法的各个组成部分 , 例如预训练数据集和数据处理方法的选择 , 并讨论了此类方法的评估局限性 。
SLIP框架
该研究提出了一种结合语言监督和图像自监督的框架SLIP , 以学习没有类别标签的视觉表征 。 在预训练期间 , 为语言监督和图像自监督分支构建每个输入图像的单独视图 , 然后通过共享图像编码器反馈 。 训练过程中图像编码器学会以语义上有意义的方式表征视觉输入 。 然后该研究通过评估它们在下游任务中的效用来衡量这些学得表征的质量 。
当自监督遇上语言-图像预训练,UC伯克利提出多任务框架SLIP
文章图片
方法
下图算法1概述了用于自监督的SLIP-SimCLR 。 在SLIP中的每次前向传递期间 , 所有图像都通过相同的编码器进行反馈 。 CLIP和SSL目标是在相关嵌入上计算的 , 然后再汇总为单个标量损失 , 可以通过重新调整SSL目标来平衡这两个目标 。 该研究将SLIP-SimCLR简称为SLIP 。
当自监督遇上语言-图像预训练,UC伯克利提出多任务框架SLIP
文章图片
SLIP增加了图像的处理数量 , 这导致产生约3倍多的激活 , 因此会扩大模型的内存占用并减慢训练过程中的前向传递速度 。
改进的训练过程
CLIP的作者主要使用包含400M图像-文本对的大型私有数据集进行训练 , 这减少了正则化和数据增强的需求 。 在复现CLIP时 , 研究者发现了一些主要针对数据增强的简单调整 。 当在YFCC15M上进行预训练时 , 这些调整显著提高了性能 。
该研究对训练过程进行了改进 , 使用改进后的ResNet-50实现了34.6%的零样本迁移到ImageNet , 超过了原始结果的31.3% , 相比之下 , 另一项研究的CLIP复现在ImageNet[29]上实现了32.7%的准确率 。 该研究的实验主要关注视觉Transformer模型(ViT)系列 , 因为它们具有强大的扩展行为[17] 。 并且该研究使用改进后的过程训练所有ViT模型 , 以便为该研究所提方法的评估比较设置强大的基线 。