多模态视频理解模型新标杆！微软黄学东团队发布 i-Code( 四 ) 黄学东领衔

就情绪分析任务而言，给定一段视频，模型需要预测说话人的情绪水平，其范围为高度消极（-3）到高度积极（3）。评价指标为MAE、预测情绪标签和真实情绪标签之间的相关性（Corr）和F1得分。该数据集还可以被用于构建二元分类任务评估模型，将-3到-1分作为一个类别，将1到3分组作为另一个类别。

文章图片
表1：CMUMOSEI情绪分析结果
我们测试了i-Code使用不同融合注意力机制、预训练数据时的性能。如表1所示， i-Code在CMUMOSEI情绪分析任务上取得了目前最佳的性能。在Dual数据集上训练的i-Code模型比在视频数据集上训练的i-Code模型展现出了更好的性能。在此数据集上，融合注意力的性能优于协同注意力机制。即使不进行多模态预训练，利用最先进的编码器的i-Code已经展现出与以前的模型相比具有竞争力的性能。

文章图片
表2：CMUMOSEI情感识别结果
就情感识别而言，我们按照Ekman情感分析体系为视频赋予以下标签：快乐、悲伤、愤怒、恐惧、厌恶、惊讶。评价指标为准确率（accuracy）、精度（precision）、召回率（recal）和Micro-F1 。我们在未进行模态对齐的数据集上评估模型性能。如表2所示，相较于之前的最佳模型， i-Code的准确率提高了4.1% ， F1提高了3.3% ，协同注意力的性能优于融合注意力。同时利用Dual数据和视频数据进行预训练，可以有效提升模型性能。
表3：UN-FUNNY二分类结果
我们在UR-FUNNY数据集上测试了i-Code在情感二分类任务上的性能。给定一段视频帧和声音，模型需要预测该片段是否会立即引起笑声。对比基线包括Bi-Bimodal融合网络、低秩矩阵融合、MultiBench、张量融合网络等利用了三模态输入的模型。如表3所示， i-Code模型的准确率相较于之前最优的模型高出了7.5% ，使用视频预训练和融合注意力融合网络时的性能最优。
多模态推理
我们使用VIOLIN数据集评估i-Code的跨模态推理能力，该数据集的输入是一段剪辑自电视节目的视频片段。该片段由视频帧V、对齐后的描述文本T和音频S组成。模型的任务是判断文本假设H与视频片段矛盾还是相符。我们将融合网络输出的平均值作为多模态表征，并以此训练一个二分类器。如表4所示， i-Code的准确率相较于之前最优的对比基线提升了3.5% 。其中， D、V、NP分别代表使用Dual、视频作为预训练数据和不使用预训练数据；M、C分别代表使用融合注意力机制和协同注意力机制。
表4：VIOLIN数据集上的多模态推理结果
视频问答
在视频问答（VQA）任务中，给定一段包含视频帧v、视频描述t、音频s的视频，以及问题q 。问答系统需要从若干候选答案中选择出正确的答案。我们将问题、候选答案、文本描述连接起来作为文本输入。接着，我们将文本输入、视频帧、语音波形一起输入给i-Code模型，对各模态的输出取平均，得到的多模态表征。我们通过投影层将表征转换为logit得分，并将softmax应用于这些得分得到分类概率。
我们分别在How2QA、KnowIT数据集上测试了i-Code在视频问答任务上的性能。 How2QA包含来自HowTo100M的37,000daunt视频片段；KnowIT包含24,282个人类标注的问答对，每个问题附有4个候选答案。实验结果如表5和表6所示。
表5：How2QA数据集上的视频问答性能
表6：KnowIT数据集上的视频问答性能
单模态任务
我们进一步研究了i-Code单模态任务上的表现。纯语言NLP任务)上的表现。如表7所示，我们将i-Code（D+M）与之前发布的多模态模型以及参数量相当的语言模型进行了比较。