50亿图文中提取中文跨模态基准,奇虎360预训练框架超越多项SOTA
机器之心专栏
作者:奇虎360人工智能研究院和清华大学
对于中文社区来说 , 本文提出的大规模跨模态基准数据集无疑很有价值
视觉语言预训练(VLP)主要学习视觉与自然语言之间的语义对应关系 。 得益于海量数据、Transformer等优秀架构、CLIP等跨模态模型以及硬件设备的支持 , 一系列开创性的工作探索了VLP模型 , 并在各种视觉语言任务上取得了显著进展 。
借助大规模训练语料库(主要是英语) , 众多VLP模型已被证明对下游任务有益 。 然而中文视觉语言数据集很少 , 并且存在各种局限性 。 针对大规模预训练模型加下游任务精调的经典模式 , 中文跨模态领域缺少一个包含大量优质数据 , 且完整定义了预训练数据集、多个下游任务训练集及下游任务测试集的数据基准 。
如何构建一个完整、公平且具有高质量文本描述的中文跨模态基准成为一个亟需解决的问题 。
最近 , 奇虎360人工智能研究院和清华大学的研究者在其最新论文中重点关注了大规模视觉语言数据集和跨模态表征学习模型 。 研究者提出了一个大规模中文跨模态基准数据集Zero , 它包含了两个被称为Zero-Corpus的预训练数据集和五个下游任务数据集 , 一定程度上填补了中文图文跨模态领域数据集的空白 。 进一步 , 研究者们还提出了一个视觉语言预训练框架R2D2 , 用于大规模跨模态学习 , 基于所提出的Zero-Corpus数据集进行预训练 , 并在多个下游任务上进行测试 , R2D2取得了多项超越SOTA的结果 。 上述数据集和模型 , 均已开源 。
研究者还尝试用更大的2.5亿内部数据集训练R2D2模型 , 相对2300万数据 , 模型效果依然有显著提升 。 特别是在零样本任务上 , 相对此前的SOTA , 在Flickr30k-CN数据集上 , R@M提升到85.6%(提升了4.7%) , 在COCO-CN数据集上 , R@M提升到80.5%(提升了5.4%) , 在MUGE数据集上 , R@M提升到69.5%(提升了6.3%) 。
文章图片
论文地址:https://arxiv.org/pdf/2205.03860.pdf
Zero-Corpus预训练数据集是由一个包含2300万图文对的完整版本和一个包含230万图文对的更小子集版本组成 。 其中 , 完整的预训练数据集从搜索引擎中收集 , 包含有图像和对应的文本描述 , 并根据用户点击率(CTR)从50亿个图文中过滤得到 。 在完整版本上训练VLP模型可能需要大量的GPU资源 , 因此为便于学术研究 , 研究者还提供了具有完整版本10%图文对的子集230万版本 。
除了两个预训练数据集之外 , 研究者还为长短文本的图文检索和图文匹配任务提供了五个高质量的下游数据集 。 特别值得一提的是Flickr30k-CNA , 它是一个经过人工翻译的比Flickr30k-CN更准确的数据集 , 可被用来对比中英文跨模态模型的效果 , 也可以用来研究翻译语料质量对于结果的影响 。
对于VLP模型 , 研究者提出了一个用于跨模态学习的全新预训练框架R2D2 。 这个框架将双塔模型和单塔模型结合 , 在图像模态表示和文本模态表示的基础上 , 利用交叉注意力机制 , 融合图文信息 , 并受推荐系统和在线广告等技术的启发 , 使用全局对比预排序(GlobalContrastivePre-Ranking,GCPR)来获得跨模态表示 , 最终使用细粒度排序(Fine-GrainedRanking,FGR)进一步提升模型性能 。
进一步 , 研究者还介绍了一种双向蒸馏方法 , 包括目标导向型蒸馏(Target-guidedDistillation , TgD)和特征导向型蒸馏(Feature-guidedDistillation , FgD) 。 其中 , 目标导向型蒸馏提升了从噪声标签中学习的稳健性 , 特征导向型蒸馏旨在提升R2D2的泛化性 。
- 华为荣耀|荣耀70 pro和,荣耀mageic4选哪个?
- 小米|七种开锁方式!小米智能门锁M20图赏
- 苹果|重磅!苹果正在迁出中国
- 苹果|目前国内手机UI系统现状
- 小米科技|小米12 Ultra外观设计细节曝光:此前渲染图有误?
- 苹果推出metalfx图形处理技术
- carplay|苹果在2022年全球开发者大会上试图消灭的东西
- 智能手表|适合兼职做的小生意
- |RTX 4090性能残暴:两倍于RTX 3090
- 小米印度洗牌,中方高管归位