搞多模态不了解最新进展?中科院自动化所撰文首个视觉-语言预训练综述( 二 )
双流架构是指文本和视觉特征没有组合在一起 , 而是独立馈入到两个不同的transformer块 , 如图1(b)所示 。 这两个transformer块不共享参数 。 为了获得更高的性能 , 交叉注意力(如图1(b)中的虚线所示)用于实现跨模态交互 。 为了实现更高的效率 , 视觉transformer块和文本transformer块之间也可以不采用交叉注意力 。
文章图片
许多VLP模型只采用编码器架构 , 不同模态表示直接馈入输出层 。 相比之下 , 其他VLP模型提倡使用transformer编码器-解码器架构 , 不同模态表示首先馈入解码器 , 然后馈入输出层 。
在预训练目标方面:论文通过使用不同的预训练目标来预训练VLP模型 , 并将预训练目标总结为四类:完成、匹配、时间和特定类型 。
完成(completion)指的是利用未掩码部分来重建掩码元素 。 以掩码语言建模(MLM)为例 , 其最早由taylor提出 , 由于BERT将其作为预训练任务而广为人知 。 VLP模型中的MLM类似于预训练语言模型(PLM)中的MLM , 它不仅可以通过其余文本token来预测掩码文本token , 还可以通过视觉token来预测掩码文本token 。 根据经验 , 遵循BERT的VLP模型以15%的掩码率随机掩码每个文本输入token , 并在80%的时间使用特殊token[MASK]、10%的时间使用随机文本token , 剩余10%的时间使用原始token来替换被掩码掉的文本 。 不过在普林斯顿大学陈丹琦等人的论文《ShouldYouMask15%inMaskedLanguageModeling?》中 , 作者发现:在有效的预训练方案下 , 他们可以掩蔽40-50%的输入文本 , 并获得比默认的15%更好的下游性能 。
在掩码视觉建模(MVM)中 , 与MLM一样 , MVM对视觉(图像或视频)区域或patch进行采样 , 并且通常以15%的概率掩码其视觉特征 。 VLP模型需要在给定剩余的视觉特征和所有文本特征的情况下重建掩码的视觉特征 。
视觉-语言匹配(VLM)是最常用的预训练目标 , 用于对齐视觉和语言 。 在单流VLP模型中 , 研究者使用特殊token[CLS]表示作为两种模态的融合表示 。 在双流VLP模型中 , 研究者将特殊视觉token[CLSV]视觉表示和特殊文本token[CLST]文本表示连接起来 , 作为两种模态的融合表示 。 VLP模型将两种模态的融合表示提供给FC层和sigmoid函数以预测0到1之间的分数 , 其中0表示视觉和语言不匹配 , 1表示视觉和语言匹配 。 在训练期间 , VLP模型在每一步从数据集中采样正对或负对 。
在预训练数据集方面:大多数用于VLP的数据集是通过组合跨多模态任务的公共数据集构建而成 。 这里 , 一些主流语料库及其详细信息如下表1所示 。
文章图片
在下游任务方面:各种各样的任务需要视觉和语言知识融合 。 本小节论文介绍了此类任务的基本细节和目标 , 并将其分为五类:分类、回归、检索、生成和其他任务 , 其中分类、回归和检索任务也称为理解任务 。
在分类任务中 , 其包括视觉问答(VQA)、视觉推理和合成问答(GQA)、视觉-语言推理(VLI)、自然语言视觉推理(NLVR)、视觉常识推理(VCR)等 。 在VQA中 , 提供图像或视频视觉输入 , 它通常被认为是一个分类任务 , 模型从一个选择池中预测出最合适的答案;在GQA中 , 我们可以将GQA视为VQA的升级版 , 旨在推进自然场景视觉推理的研究;在VLI中 , 给定具有对齐字幕的视频剪辑作为前提 , 并与基于视频内容的自然语言假设配对 , 模型需要推断该假设是否与给定视频剪辑相矛盾 。
在回归任务中 , 多模态情感分析(MSA)旨在利用多模态信号(如视觉、语言等)检测视频中的情绪 。 它是作为一个连续的强度变量来预测话语的情感走向 。
- 上海|盒马辟谣:“上海所有门店关闭”不实,系店员不了解具体情况
- 达达|格总说创业干货:不了解直播带货这两个重要环节,等于白玩儿
- 苹果|一条连接线949 一本书2000?苹果那些贵得离谱的产品你可能不了解
- 三星电子|深受家长青睐的护眼电视真的护眼吗?不了解不知道,一了解吓一跳
- 苹果|可穿戴全凝胶多模态皮肤传感器可同时单点监测心脏相关的生物物理信号
- 五角大楼|随着5G的推出,五角大楼仍然不了解对军用飞机的影响
- 华为诺亚方舟实验室|1亿组图文对,填补中文开源多模态数据集空白| 文本
- 电子商务|这3款旗舰手机被严重高估,配置高但缺点明显,只怪太多人不了解
- 合成|小米AI实验室六篇论文获ICASSP2022收录,多模态语音唤醒挑战赛夺冠
- 银行的短信通知最好关闭?多数人不了解内幕,多亏银行员工提醒