当自监督遇上语言-图像预训练,UC伯克利提出多任务框架SLIP( 二 )
评估实验
ImageNet分类任务
该研究在三种不同的设置下评估了模型在ImageNet上的性能:零样本迁移、线性分类和端到端微调 。
零样本迁移任务在预训练后直接在分类基准上评估模型性能 , 而无需更新任何模型权重 。 通过简单地选择字幕嵌入与输入图像最接近的类 , 可以将使用对比语言监督训练的模型用作图像分类器;
线性分类 , 也称为线性探测 , 是一种用于评估无监督或自监督表征的标准评估方法 。 训练随机初始化的终极分类层 , 同时冻结所有其他模型权重;
最后 , 另一种评估表征质量的方法是 , 在对模型进行端到端微调时 , 评估预训练模型是否可以提高监督学习的性能 。
自监督学习中一种常见的评估设置是在ImageNet(即ImageNet-1K)上训练模型和线性分类器 , 即使没有标签 , 它也是一个高度策划和类平衡的数据集 。 表1在YFCC15M和ImageNet上使用SimCLR和MoCov3训练ViT-B/16 。 在ImageNet上对线性分类和端到端微调进行了模型评估 。 当在YFCC15M而不是ImageNet上进行预训练时 , SimCLR和MoCov3的线性分类准确率下降了10%以上 , 性能急剧下降 。
文章图片
下表2提供了三种尺寸的VisionTransformer和所有三种ImageNet设置的CLIP、SimCLR和SLIP的评估结果 。 所有模型都在YFCC15M上训练了25个epoch 。 该研究发现语言监督和图像自监督在SLIP中建设性地相互作用 , 单独提高了这两种方法的性能 。
文章图片
模型规模和计算量扩展
在这一部分 , 研究者探索了使用更大的计算量(训练更久)和更大的视觉模型之后 , SLIP的表现有何变化 。 他们注意到 , YFCC15M上的100个训练epoch对应着ImageNet1K上的1200个训练epoch 。
下表3的结果表明 , 无论是增加训练时间 , 还是增大模型尺寸 , SLIP都能实现良好的扩展 。
文章图片
其他基准
在下表4中 , 研究者评估了一组下游图像分类任务上的zero-shot迁移学习性能 。 这些数据集跨越许多不同的领域 , 包括日常场景(如交通标志)、专业领域(如医疗和卫星图像)、视频帧、带有或不带有视觉上下文的渲染文本等 。
在这些数据集上 , 我们看到 , 更大的模型和使用SLIP进行更长时间的训练通常可以提高zero-shot迁移学习的准确性 。
文章图片
其他预训练数据集
除了YFCC15M之外 , 研究者还用另外两个图像-文本数据集——CC12M和CC3M——进行了实验 。 如下表5所示 , 他们在CC12M和CC3M上同时使用SLIP和CLIP训练ViT-B/16 , 并与他们之前在YFCC15M上得到的数据进行比较 。 在所有的ImageNet评估设置中 , SLIP都比CLIP有改进的余地 。 值得注意的是 , 在CC12M而不是YCC15M上预训练SLIP会产生较低的zero-shot准确率 , 但实际上会带来较高的线性和微调性能 。 CLIP让人看到了更惊艳的1.6%的微调性能提升 。
文章图片
其他自监督框架
作者在论文中提到 , SLIP允许使用许多不同的自监督方法 。 他们用SimCLR的不同替代方法——MoCov3、BYOL和BeiT在ViT-B/16上进行了几次实验 。
下表6显示 , 三种替代方法的表现都比不上SLIP-SimCLR 。 最令人惊讶的结果是 , 尽管BEiT是这里测试的最强的自监督方法 , 但SLIP-BEiT的表现最差 。 这可能是由于预训练和部署阶段之间的输入差异较大 。 尽管如此 , 所有这些次优的SLIP变体仍然比CLIP性能要高 。
- 冬奥遇上春招季,BOSS直聘“冰墩墩”概念人才、企业受关注
- 操作系统|微信或遇上“对手”?WhatsAPP已拥有20亿用户量,怎么做到的?
- meta|微信或遇上“对手”?WhatsAPP已拥有20亿用户量,怎么做到的?
- 当苏翊鸣遇上智取威虎山的小栓子 网友:小栓子的豪言壮语成真了
- 本文转自:知识就是力量杂志撰文 / 王宝会(北京航空航天大学)冯培禄(呼和浩特民族学院)...|冬奥会遇上人工智能——科技感“拉满”的冰雪竞技大会
- 酷!当坡面障碍技巧遇上长城元素
- 春节遇上冬奥,冰雪运动受热捧
- 欢天喜地迎新年!四川天府新区市场监督管理局给大家拜年了!
- 大规模蛋白质翻译后修饰提取模型BioBERT,具有远程监督和置信度校准
- 【冬奥之约】冬奥会遇上中国年