50亿图文中提取中文跨模态基准,奇虎360预训练框架超越多项SOTA( 四 )
目标导向型蒸馏:为了降低从噪声标签中学习的风险 , 研究者建议采用动量更新编码器产生的软目标(softtarget) 。 这里 , 动量更新编码器作为蒸馏的教师模型 , 由指数移动平均权重得到 。
研究者通过系数α将相似度得分s(·,·)与one-hot标签y(·,·)相结合 , 以生成最终的soft标签 。 将
文章图片
和
文章图片
表示为最终soft标签 。 以
文章图片
为例 , 可定义为:
文章图片
考虑到队列中特征的有效性随着时间步长的增加而降低 , 研究者还维护了一个加权队列w来标记相应位置特征的可靠性 。 具体来说 , 除了新传入的项之外 , 该研究每次迭代都将队列中的每个元素衰减0.99倍 。 因此 , 研究者将
文章图片
替换为等式2中的加权交叉熵损失
文章图片
。 使用目标导向型蒸馏 ,
文章图片
定义为:
文章图片
特征导向型蒸馏:与TgD类似 , 研究者采用教师-学生范式进行特征导向型蒸馏 。 以文本编码器为例 , 学生模型是文本编码器 , 而教师模型是通过动量更新的编码器 。
为了进一步提高模型性能 , 研究者对输入采用掩码策略 。 在具体实现中 , 将完整的输入提供给教师模型 , 将经过遮盖的输入提供给学生 。 依靠动量机制 , 目标是让学生的特征更接近教师的特征 。 形式上 , 教师和学生模型的预测分布分别定义如下:
文章图片
研究者利用交叉熵损失进行特征导向型蒸馏 , 损失L_FgD定义为:
文章图片
最后用整体预训练目标进行模型训练:
文章图片
实验结果
从下表2中可以看出 , 研究者提出的模型在绝大多数任务中都超越了此前的SOTA , 即使仅使用2.3M样本(约为Wukong数据大小的2.3%)进行训练时也是如此 。 对23M样本进行预训练时 , 结果更好 。 在模型层面 , R2D2ViT-L也在所有数据集中都优于R2D2ViT-B , 表明随着预训练模型变大 , 算法效果会变好 。
文章图片
研究者还在所提出的下游数据集上进行实验 , 这些实验结果成为所提出数据集的基线 。 特别地 , 在Flickr30k-CNA上进行实验时 , 研究者使用Flickr30k-CNA的训练集精调预训练模型 , 并在Flickr30k-CN的测试集上测试以进行公平比较 。 从表2可以看出 , 在Flickr30k-CNA上微调的R2D2优于在Flickr30k-CN上微调的R2D2 , 因为人工翻译的Flickr30k-CNA的质量远高于机器翻译的Flickr30k-CN 。
与图文检索不同 , 有关中文的图文匹配(ITM)任务的数据集很少 。 研究者提出了针对中文ITM任务的图像标题匹配数据集(ICM)和图像查询匹配数据集(IQM) , 并给出了相应的结果 。
研究者使用了AUC作为评价指标 。 从下表1中可以看出 , R2D2ViT-L比R2D2ViT-B取得了更好的结果 。 此外 , R2D2ViT-L(23M)在ICM和IQM上的表现分别比R2D2ViT-L(2.3M)高出约4.97%、5.68% 。 这意味着更多的中文高质量数据能够提高R2D2的泛化能力 。
- 华为荣耀|荣耀70 pro和,荣耀mageic4选哪个?
- 小米|七种开锁方式!小米智能门锁M20图赏
- 苹果|重磅!苹果正在迁出中国
- 苹果|目前国内手机UI系统现状
- 小米科技|小米12 Ultra外观设计细节曝光:此前渲染图有误?
- 苹果推出metalfx图形处理技术
- carplay|苹果在2022年全球开发者大会上试图消灭的东西
- 智能手表|适合兼职做的小生意
- |RTX 4090性能残暴:两倍于RTX 3090
- 小米印度洗牌,中方高管归位