多模态视频理解模型新标杆!微软黄学东团队发布 i-Code( 三 )


融合注意力
此时 , 不同的模态共享相同的注意力参数 。 为了帮助融合模块区分不同的模态 , 我们在所有时间和空间维度上 , 将每个模态独有的识别嵌入添加到投影后的特征上(在所有的时间和空间维度上) 。 我们将来自不同模态的投影特征连接在一起 , 输入给融合网络 , 融合网络的每一层都与经典的Transformer编码器层相同 。
协同注意力
此时 , 每个Transformer层首先在每个模态内部的特征之间执行自注意力机制 , 每个模态都具有模态特定的注意力参数 。 假设前一个Transformer层的语言、视觉和语音输出分别为、和 。 以语言模态的单个注意力头为例:
我们在自注意力子层后应用一个跨模态注意力:
对于具有融合注意力机制的融合网络模块 , 我们使用了6个Transformer编码器层 , 隐层的向量维度为768 , 融合模块有1.54亿个参数 。 对于协同注意融合模块 , 为了保持模型的维度与融合注意力模型相近 , 我们使用了3层Transformer , 隐藏维度相同 , 最终的模型具有1.63亿个参数 。 融合模块中的参数在预训练中随机初始化 , 而不是从预训练的Checkpoint上被实例化 。
4i-Code的预训练掩码单元建模
此类自监督预训练目标包括:
(1)掩码语言模型(MLM) 。 MLM在针对语言和「视觉-语言」预训练的自监督学习方面取得了显著的成功 。 在预训练过程中 , 我们将30%的文本词例屏蔽掉 。 模型需要预测被屏蔽掉的词例 , 损失函数为真实值和预测词例索引之间的交叉熵 。
(2)掩码视觉模型(MVM) 。 我们在视觉自监督学习中采用了与MLM一致的高级策略 。 我们将视觉输入转换为离散词例 , 屏蔽输入图像中的某些区域 , 并最大化被屏蔽区域的预测值和真实词例之间的交叉熵 。 给定一组帧序列 , 我们利用目前最先进的视觉矢量量化变分自编码器(VQ-VAE)——PeCo , 将每一帧离散为词例 。 我们采用Wang等人在论文「Bevt:Bertpretrainingofvideotransformers」中提出的3Dtube掩码策略 , 跨时间维度屏蔽图像区域进行掩蔽 , 每一帧屏蔽50%的区域 。
(3)掩码语音片段模型(MSM) 。 使用预训练的wav2vec2.0语音量化器模型将语音离散化为词例序列 。 我们使用与HuBERT和wav2vec2.0相同的掩码策略 , 随机选择p%的时间步作为起始的索引 , 并屏蔽接下来的L步语音片段 。 此时 , 我们取L=10、p=8 。 MSM损失为预测标签和真实标签之间的交叉熵 。
跨模态对比学习
我们先将每个单模态输入通过相应的编码器编码 , 然后将编码结果分别送入多模态编码器 。 接下来 , 对每组单模态嵌入进行平均池化 。 对于语言和语音模态 , 多模态编码器输出沿时序维度取平均 。 视觉输入则同时沿时间和空间维度取平均 。 我们分别将视觉、语言和语音的所获得的表征表示为、、 , 并且将表征归一化为单位向量 , 例如:
每个batch(B)中的视觉语言对比损失为:
其中 , 「视觉到语言」、「语言到视觉」的对比学习目标函数为:
类似地 , 我们分别定义了「视觉-语音」、「语言-语音」的对比学习目标函数和 。
在对视频进行预训练时 , 我们将视频描述和ASR转录文本连接起来作为视觉语言对比学习和MLM的语言输入 。 预训练目标函数是掩码单元建模和对比学习目标的加权和:
5实验我们在多模态情绪&情感分析、多模态推理、视频问答以及一些单模态任务上评估了i-Code模型的性能 。
多模态情绪&情感分析
我们在迄今为止最大的多模态情感分析和情感识别数据集CMU-MOSEI上测试了i-Code , 该数据集包含23,453段视频 , 提出了两个任务:情绪分析和情感识别 。