50亿图文中提取中文跨模态基准,奇虎360预训练框架超越多项SOTA( 三 )
文章图片
Flickr30k、Flickr30k-CN和本文提出的Flickr30k-CNA的示例对比 。
方法概述
模型架构
下图1为R2D2预训练框架的架构概览 , 它包含一个文本编码器、一个图像编码器和两个交叉编码器 。 其中 , 文本编码器和图像编码器分别将文本和图像转换为隐藏状态的序列 。 然后 , 文本和图像隐藏状态通过交叉注意力在两个交叉编码器中交互 。
文章图片
研究者使用RoBERTa作为文本编码器 。 给定文本序列 , 他们首先使用RoBERTa-wwm-ext的tokenizer进行tokenize处理 。 在这里 , 特殊的[CLS]token被附加到tokenized文本的head , 同时[SEP]token被附加到tail 。 然后 , tokenized文本被输入到文本编码器中 。
研究者使用ViT作为图像编码器 。 他们首先将输入图像缩放到标准尺寸 , 并将该图像分成多个patch 。 然后每个patch进行线性映射并添加位置嵌入 。 此外 , 一个可学习的[CLS]token与patch向量串联 。 最后 , 序列向量被输入到标准Transformer模型以获得图像隐藏状态向量 。
研究者将图像和文本隐藏向量融合并输入到交叉编码器 。 具体来说 , 他们使用线性映射层来更改每个文本特征和图像特征的维度以使它们保持一致 。 多层Transformer借助交叉注意力融合了两种模态的特征信息 , 并产生了最终的跨模态输出 。
预训练方法
为了探索图文对之间的匹配关系 , 研究者设计了一种预排序+排序的机制 , 即全局对比预排序(GCPR)和细粒度排序(FGR) 。 他们还采用掩码语言建模(MLM)有效地学习跨模态模型的表示 。
首先是全局对比预排序 。 传统的对比学习旨在对齐多模态数据的表示(如成对图文) , 它最大化了正对的相似度分数并最小化了负对的分数 。 研究者则使用全局对比学习来完成预排序任务 , 他们在k个GPU上执行完整的反向传播 。 对于每个图像I_i和对应的文本T_i , 图文和文图的softmax归一化相似度分数可以如下定义:
文章图片
全局对比预排序损失通过交叉熵损失L_c(·)来计算 , 如下公式(2)所示:
文章图片
然后是细粒度排序 。 如上所述 , 研究者使用全局对比预排序来获得图像和文本的单个表示 。 基于这些表示 , 进一步借助细粒度排序损失来执行细粒度排序任务 。 这是一个二元分类任务 , 旨在预测图文是否匹配 。
研究者将h_I_[CLS]和h_T_[CLS]作为两个交叉编码器的输出表示 。 给定一个图像表示h_I_[CLS]和一个文本表示h_T_[CLS] , 研究者将它们输入到一个全连接层g(·)以得到各自的预测概率 。 令y表示为二元分类的ground-truth标签 , 研究者对细粒度排序损失进行如下的计算 。
文章图片
研究者将掩码语言建模损失应用于文图交叉编码器 , 以提高在token级别建模文本和图像之间关系的能力 。 15%的文本token在输入中被遮盖 , 所有这些token被替换成了[MASK]token 。
在研究者的模型中 , 掩码语言建模任务利用掩码文本和对应的图像一起进行去噪 , 从而增强了文本和图像之间的交互 。 由于细粒度排序严重依赖这种交互能力 , 因此研究者提出了增强训练(ET) , 它将掩码语言建模任务集成到了正向图文对的细粒度排序前向操作中 。
双向蒸馏
大部分图文预训练数据由半自动化程序所收集 , 从而导致其数据带有噪声 。 不准确的标签可能会误导模型训练 。 为此 , 研究者提出目标导向型蒸馏(TgD) , 一种带软目标的基于教师-学生的蒸馏 。 为了进一步提高预训练模型的泛化性能 , 研究者引入了特征导向型蒸馏(FgD) 。 为方便起见 , 他们将这两种蒸馏的组合称为双向蒸馏(TwD) 。
- 华为荣耀|荣耀70 pro和,荣耀mageic4选哪个?
- 小米|七种开锁方式!小米智能门锁M20图赏
- 苹果|重磅!苹果正在迁出中国
- 苹果|目前国内手机UI系统现状
- 小米科技|小米12 Ultra外观设计细节曝光:此前渲染图有误?
- 苹果推出metalfx图形处理技术
- carplay|苹果在2022年全球开发者大会上试图消灭的东西
- 智能手表|适合兼职做的小生意
- |RTX 4090性能残暴:两倍于RTX 3090
- 小米印度洗牌,中方高管归位