50亿图文中提取中文跨模态基准,奇虎360预训练框架超越多项SOTA( 五 )


为了进一步提高性能 , 研究者用从50亿样本中提取的2.5亿个图文对进行预训练 。 从表2可以看出 , 以最综合的评估指标R@M来衡量 , 该模型在Flickr30k-CN、COCO-CN、AIC-ICC、MUGE、Flickr30k-CNA、ICR、IQR等数据集的所有结果中都超过了23M数据训练的模型 , 这意味着增加数据量可以增强预训练模型的能力 。 同时 , 这些结果也显著超越了有公开结果批露的WenLan2.0以及WuKong的结果 , 成为最新的SOTA 。 下表1中数据则展示了在图文匹配任务ICM、IQM中 , 更大量的数据训练的预训练模型会取得更好的结果 。
50亿图文中提取中文跨模态基准,奇虎360预训练框架超越多项SOTA
文章图片
为了表明各个机制的作用 , 研究者在Zero-Corpus的子集上(230万图文预训练数据)进行消融实验 。 为方便起见 , 在消融实验中研究者将R2D2ViT-L定义为R2D2 。
细粒度排序(FGR)的效果 。 首先 , 研究者使用全局对比预排序(GCPR)和双向蒸馏(TwD)训练模型 , 并定义为PRD2 。 PRD2的设置类似于CLIP 。 从下表3的第一行和第二行可以看出 , R2D2在图文检索任务上的表现显著优于PRD2 , 可以推测出该结果显著好于CLIP , 这说明了提出的全局对比预排序+细粒度排序框架的有效性 。
增强训练(ET)的效果 。 研究者对比了去掉增强训练后的结果 。 从下表3的第三行可以看出 , R2D2(带ET)在图文检索任务上使recall@1提高了0.95% , AUC从80.27%提高到80.51% 。 R2D2的另一个优点是比R2D2w/oET使用更少的计算资源 。 R2D2需要154.0GFLOPs计算量 , 能够以每秒1.4次迭代的速度运行 , 而没有增强训练的R2D2则需要168.8GFLOPs计算量 , 每秒只能运行1.1次迭代 。 上述结果证明了增强训练的有效性 。
双向蒸馏的效果 。 研究者提出的双向蒸馏包含了目标导向型蒸馏和特征导向型蒸馏 。 当移除双向蒸馏(TwD)时 , R@M从74.06%降到73.10% , AUC从80.51%降到80.31% 。 当移除特征导向型蒸馏(FgD)时 , R@M从74.06%降到73.29% , 性能下降明显 , 说明在训练中进行特征对齐很重要 。 同时 , 移除目标导向型蒸馏(TgD)也会导致模型的性能下降 。 上述结果说明双向蒸馏是一种提升预训练模型泛化性的有效方法 。
50亿图文中提取中文跨模态基准,奇虎360预训练框架超越多项SOTA
文章图片
零样本任务 。 为了证明模型的泛化性能 , 研究者还进行了零样本迁移实验 。 从下表4中可以看出 , 与目前SOTA性能的WukongViT-L相比 , R2D2ViT-L(23M)仅使用了不到1/4的数据 , 却在Flickr30k-CN、COCO-CN上都取得了更好的性能 。 当引入2.5亿级别的预训练数据时 , R2D2的精度获得进一步提升 , 相对WukongViT-L , 在Flickr30k-CN数据集上 , R@M提升到85.6%(提升了4.7%) , 在COCO-CN数据集上 , R@M提升到80.5%(提升了5.4%) , 在MUGE数据集上 , R@M提升到69.5%(提升了6.3%) 。
50亿图文中提取中文跨模态基准,奇虎360预训练框架超越多项SOTA
文章图片
基于实体的图像注意力可视化 。 在本实验中 , 研究者尝试在COCO-CN上可视化图像的注意力 。 具体来说 , 他们首先从中文文本中提取一个实体 , 并计算图像与实体对的注意力得分 。 下图2展示了四个不同实体在图像上的可视化解释 。 这表明R2D2很好地学会了将文本与图像中的正确内容对齐 。
50亿图文中提取中文跨模态基准,奇虎360预训练框架超越多项SOTA
文章图片
数据集地址:https://zero.so.com代码和模型地址:https://github.com/yuxie11/R2D2