多模态视频理解模型新标杆！微软黄学东团队发布 i-Code( 三 ) 黄学东领衔

融合注意力
此时，不同的模态共享相同的注意力参数。为了帮助融合模块区分不同的模态，我们在所有时间和空间维度上，将每个模态独有的识别嵌入添加到投影后的特征上（在所有的时间和空间维度上）。我们将来自不同模态的投影特征连接在一起，输入给融合网络，融合网络的每一层都与经典的Transformer编码器层相同。
协同注意力
此时，每个Transformer层首先在每个模态内部的特征之间执行自注意力机制，每个模态都具有模态特定的注意力参数。假设前一个Transformer层的语言、视觉和语音输出分别为、和。以语言模态的单个注意力头为例：
我们在自注意力子层后应用一个跨模态注意力：
对于具有融合注意力机制的融合网络模块，我们使用了6个Transformer编码器层，隐层的向量维度为768 ，融合模块有1.54亿个参数。对于协同注意融合模块，为了保持模型的维度与融合注意力模型相近，我们使用了3层Transformer ，隐藏维度相同，最终的模型具有1.63亿个参数。融合模块中的参数在预训练中随机初始化，而不是从预训练的Checkpoint上被实例化。
4i-Code的预训练掩码单元建模
此类自监督预训练目标包括：
（1）掩码语言模型（MLM）。 MLM在针对语言和「视觉-语言」预训练的自监督学习方面取得了显著的成功。在预训练过程中，我们将30%的文本词例屏蔽掉。模型需要预测被屏蔽掉的词例，损失函数为真实值和预测词例索引之间的交叉熵。
（2）掩码视觉模型（MVM）。我们在视觉自监督学习中采用了与MLM一致的高级策略。我们将视觉输入转换为离散词例，屏蔽输入图像中的某些区域，并最大化被屏蔽区域的预测值和真实词例之间的交叉熵。给定一组帧序列，我们利用目前最先进的视觉矢量量化变分自编码器（VQ-VAE）——PeCo ，将每一帧离散为词例。我们采用Wang等人在论文「Bevt:Bertpretrainingofvideotransformers」中提出的3Dtube掩码策略，跨时间维度屏蔽图像区域进行掩蔽，每一帧屏蔽50%的区域。
（3）掩码语音片段模型（MSM）。使用预训练的wav2vec2.0语音量化器模型将语音离散化为词例序列。我们使用与HuBERT和wav2vec2.0相同的掩码策略，随机选择p%的时间步作为起始的索引，并屏蔽接下来的L步语音片段。此时，我们取L=10、p=8 。 MSM损失为预测标签和真实标签之间的交叉熵。
跨模态对比学习
我们先将每个单模态输入通过相应的编码器编码，然后将编码结果分别送入多模态编码器。接下来，对每组单模态嵌入进行平均池化。对于语言和语音模态，多模态编码器输出沿时序维度取平均。视觉输入则同时沿时间和空间维度取平均。我们分别将视觉、语言和语音的所获得的表征表示为、、，并且将表征归一化为单位向量，例如：
每个batch（B）中的视觉语言对比损失为：
其中，「视觉到语言」、「语言到视觉」的对比学习目标函数为：
类似地，我们分别定义了「视觉-语音」、「语言-语音」的对比学习目标函数和。
在对视频进行预训练时，我们将视频描述和ASR转录文本连接起来作为视觉语言对比学习和MLM的语言输入。预训练目标函数是掩码单元建模和对比学习目标的加权和：
5实验我们在多模态情绪&情感分析、多模态推理、视频问答以及一些单模态任务上评估了i-Code模型的性能。
多模态情绪&情感分析
我们在迄今为止最大的多模态情感分析和情感识别数据集CMU-MOSEI上测试了i-Code ，该数据集包含23,453段视频，提出了两个任务：情绪分析和情感识别。