50亿图文中提取中文跨模态基准，奇虎360预训练框架超越多项SOTA( 五 ) 机器之心专栏作者：奇虎360人

为了进一步提高性能，研究者用从50亿样本中提取的2.5亿个图文对进行预训练。从表2可以看出，以最综合的评估指标R@M来衡量，该模型在Flickr30k-CN、COCO-CN、AIC-ICC、MUGE、Flickr30k-CNA、ICR、IQR等数据集的所有结果中都超过了23M数据训练的模型，这意味着增加数据量可以增强预训练模型的能力。同时，这些结果也显著超越了有公开结果批露的WenLan2.0以及WuKong的结果，成为最新的SOTA 。下表1中数据则展示了在图文匹配任务ICM、IQM中，更大量的数据训练的预训练模型会取得更好的结果。

文章图片
为了表明各个机制的作用，研究者在Zero-Corpus的子集上（230万图文预训练数据）进行消融实验。为方便起见，在消融实验中研究者将R2D2ViT-L定义为R2D2 。
细粒度排序(FGR)的效果。首先，研究者使用全局对比预排序（GCPR）和双向蒸馏（TwD）训练模型，并定义为PRD2 。 PRD2的设置类似于CLIP 。从下表3的第一行和第二行可以看出， R2D2在图文检索任务上的表现显著优于PRD2 ，可以推测出该结果显著好于CLIP ，这说明了提出的全局对比预排序+细粒度排序框架的有效性。
增强训练(ET)的效果。研究者对比了去掉增强训练后的结果。从下表3的第三行可以看出， R2D2(带ET)在图文检索任务上使recall@1提高了0.95% ， AUC从80.27%提高到80.51% 。 R2D2的另一个优点是比R2D2w/oET使用更少的计算资源。 R2D2需要154.0GFLOPs计算量，能够以每秒1.4次迭代的速度运行，而没有增强训练的R2D2则需要168.8GFLOPs计算量，每秒只能运行1.1次迭代。上述结果证明了增强训练的有效性。
双向蒸馏的效果。研究者提出的双向蒸馏包含了目标导向型蒸馏和特征导向型蒸馏。当移除双向蒸馏（TwD）时， R@M从74.06%降到73.10% ， AUC从80.51%降到80.31% 。当移除特征导向型蒸馏（FgD）时， R@M从74.06%降到73.29% ，性能下降明显，说明在训练中进行特征对齐很重要。同时，移除目标导向型蒸馏（TgD）也会导致模型的性能下降。上述结果说明双向蒸馏是一种提升预训练模型泛化性的有效方法。

文章图片
零样本任务。为了证明模型的泛化性能，研究者还进行了零样本迁移实验。从下表4中可以看出，与目前SOTA性能的WukongViT-L相比， R2D2ViT-L（23M）仅使用了不到1/4的数据，却在Flickr30k-CN、COCO-CN上都取得了更好的性能。当引入2.5亿级别的预训练数据时， R2D2的精度获得进一步提升，相对WukongViT-L ，在Flickr30k-CN数据集上， R@M提升到85.6%（提升了4.7%），在COCO-CN数据集上， R@M提升到80.5%（提升了5.4%），在MUGE数据集上， R@M提升到69.5%（提升了6.3%）。

文章图片
基于实体的图像注意力可视化。在本实验中，研究者尝试在COCO-CN上可视化图像的注意力。具体来说，他们首先从中文文本中提取一个实体，并计算图像与实体对的注意力得分。下图2展示了四个不同实体在图像上的可视化解释。这表明R2D2很好地学会了将文本与图像中的正确内容对齐。

文章图片
数据集地址：https://zero.so.com代码和模型地址：https://github.com/yuxie11/R2D2