搞多模态不了解最新进展?中科院自动化所撰文首个视觉-语言预训练综述( 二 )


双流架构是指文本和视觉特征没有组合在一起 , 而是独立馈入到两个不同的transformer块 , 如图1(b)所示 。 这两个transformer块不共享参数 。 为了获得更高的性能 , 交叉注意力(如图1(b)中的虚线所示)用于实现跨模态交互 。 为了实现更高的效率 , 视觉transformer块和文本transformer块之间也可以不采用交叉注意力 。
搞多模态不了解最新进展?中科院自动化所撰文首个视觉-语言预训练综述
文章图片
许多VLP模型只采用编码器架构 , 不同模态表示直接馈入输出层 。 相比之下 , 其他VLP模型提倡使用transformer编码器-解码器架构 , 不同模态表示首先馈入解码器 , 然后馈入输出层 。
在预训练目标方面:论文通过使用不同的预训练目标来预训练VLP模型 , 并将预训练目标总结为四类:完成、匹配、时间和特定类型 。
完成(completion)指的是利用未掩码部分来重建掩码元素 。 以掩码语言建模(MLM)为例 , 其最早由taylor提出 , 由于BERT将其作为预训练任务而广为人知 。 VLP模型中的MLM类似于预训练语言模型(PLM)中的MLM , 它不仅可以通过其余文本token来预测掩码文本token , 还可以通过视觉token来预测掩码文本token 。 根据经验 , 遵循BERT的VLP模型以15%的掩码率随机掩码每个文本输入token , 并在80%的时间使用特殊token[MASK]、10%的时间使用随机文本token , 剩余10%的时间使用原始token来替换被掩码掉的文本 。 不过在普林斯顿大学陈丹琦等人的论文《ShouldYouMask15%inMaskedLanguageModeling?》中 , 作者发现:在有效的预训练方案下 , 他们可以掩蔽40-50%的输入文本 , 并获得比默认的15%更好的下游性能 。
在掩码视觉建模(MVM)中 , 与MLM一样 , MVM对视觉(图像或视频)区域或patch进行采样 , 并且通常以15%的概率掩码其视觉特征 。 VLP模型需要在给定剩余的视觉特征和所有文本特征的情况下重建掩码的视觉特征 。
视觉-语言匹配(VLM)是最常用的预训练目标 , 用于对齐视觉和语言 。 在单流VLP模型中 , 研究者使用特殊token[CLS]表示作为两种模态的融合表示 。 在双流VLP模型中 , 研究者将特殊视觉token[CLSV]视觉表示和特殊文本token[CLST]文本表示连接起来 , 作为两种模态的融合表示 。 VLP模型将两种模态的融合表示提供给FC层和sigmoid函数以预测0到1之间的分数 , 其中0表示视觉和语言不匹配 , 1表示视觉和语言匹配 。 在训练期间 , VLP模型在每一步从数据集中采样正对或负对 。
在预训练数据集方面:大多数用于VLP的数据集是通过组合跨多模态任务的公共数据集构建而成 。 这里 , 一些主流语料库及其详细信息如下表1所示 。
搞多模态不了解最新进展?中科院自动化所撰文首个视觉-语言预训练综述
文章图片
在下游任务方面:各种各样的任务需要视觉和语言知识融合 。 本小节论文介绍了此类任务的基本细节和目标 , 并将其分为五类:分类、回归、检索、生成和其他任务 , 其中分类、回归和检索任务也称为理解任务 。
在分类任务中 , 其包括视觉问答(VQA)、视觉推理和合成问答(GQA)、视觉-语言推理(VLI)、自然语言视觉推理(NLVR)、视觉常识推理(VCR)等 。 在VQA中 , 提供图像或视频视觉输入 , 它通常被认为是一个分类任务 , 模型从一个选择池中预测出最合适的答案;在GQA中 , 我们可以将GQA视为VQA的升级版 , 旨在推进自然场景视觉推理的研究;在VLI中 , 给定具有对齐字幕的视频剪辑作为前提 , 并与基于视频内容的自然语言假设配对 , 模型需要推断该假设是否与给定视频剪辑相矛盾 。
在回归任务中 , 多模态情感分析(MSA)旨在利用多模态信号(如视觉、语言等)检测视频中的情绪 。 它是作为一个连续的强度变量来预测话语的情感走向 。