多模态视频理解模型新标杆!微软黄学东团队发布 i-Code( 四 )


就情绪分析任务而言 , 给定一段视频 , 模型需要预测说话人的情绪水平 , 其范围为高度消极(-3)到高度积极(3) 。 评价指标为MAE、预测情绪标签和真实情绪标签之间的相关性(Corr)和F1得分 。 该数据集还可以被用于构建二元分类任务评估模型 , 将-3到-1分作为一个类别 , 将1到3分组作为另一个类别 。
多模态视频理解模型新标杆!微软黄学东团队发布 i-Code
文章图片
表1:CMUMOSEI情绪分析结果
我们测试了i-Code使用不同融合注意力机制、预训练数据时的性能 。 如表1所示 , i-Code在CMUMOSEI情绪分析任务上取得了目前最佳的性能 。 在Dual数据集上训练的i-Code模型比在视频数据集上训练的i-Code模型展现出了更好的性能 。 在此数据集上 , 融合注意力的性能优于协同注意力机制 。 即使不进行多模态预训练 , 利用最先进的编码器的i-Code已经展现出与以前的模型相比具有竞争力的性能 。
多模态视频理解模型新标杆!微软黄学东团队发布 i-Code
文章图片
表2:CMUMOSEI情感识别结果
就情感识别而言 , 我们按照Ekman情感分析体系为视频赋予以下标签:快乐、悲伤、愤怒、恐惧、厌恶、惊讶 。 评价指标为准确率(accuracy)、精度(precision)、召回率(recal)和Micro-F1 。 我们在未进行模态对齐的数据集上评估模型性能 。 如表2所示 , 相较于之前的最佳模型 , i-Code的准确率提高了4.1% , F1提高了3.3% , 协同注意力的性能优于融合注意力 。 同时利用Dual数据和视频数据进行预训练 , 可以有效提升模型性能 。
表3:UN-FUNNY二分类结果
我们在UR-FUNNY数据集上测试了i-Code在情感二分类任务上的性能 。 给定一段视频帧和声音 , 模型需要预测该片段是否会立即引起笑声 。 对比基线包括Bi-Bimodal融合网络、低秩矩阵融合、MultiBench、张量融合网络等利用了三模态输入的模型 。 如表3所示 , i-Code模型的准确率相较于之前最优的模型高出了7.5% , 使用视频预训练和融合注意力融合网络时的性能最优 。
多模态推理
我们使用VIOLIN数据集评估i-Code的跨模态推理能力 , 该数据集的输入是一段剪辑自电视节目的视频片段 。 该片段由视频帧V、对齐后的描述文本T和音频S组成 。 模型的任务是判断文本假设H与视频片段矛盾还是相符 。 我们将融合网络输出的平均值作为多模态表征 , 并以此训练一个二分类器 。 如表4所示 , i-Code的准确率相较于之前最优的对比基线提升了3.5% 。 其中 , D、V、NP分别代表使用Dual、视频作为预训练数据和不使用预训练数据;M、C分别代表使用融合注意力机制和协同注意力机制 。
表4:VIOLIN数据集上的多模态推理结果
视频问答
在视频问答(VQA)任务中 , 给定一段包含视频帧v、视频描述t、音频s的视频 , 以及问题q 。 问答系统需要从若干候选答案中选择出正确的答案 。 我们将问题、候选答案、文本描述连接起来作为文本输入 。 接着 , 我们将文本输入、视频帧、语音波形一起输入给i-Code模型 , 对各模态的输出取平均 , 得到的多模态表征 。 我们通过投影层将表征转换为logit得分 , 并将softmax应用于这些得分得到分类概率 。
我们分别在How2QA、KnowIT数据集上测试了i-Code在视频问答任务上的性能 。 How2QA包含来自HowTo100M的37,000daunt视频片段;KnowIT包含24,282个人类标注的问答对 , 每个问题附有4个候选答案 。 实验结果如表5和表6所示 。
表5:How2QA数据集上的视频问答性能
表6:KnowIT数据集上的视频问答性能
单模态任务
我们进一步研究了i-Code单模态任务上的表现 。 纯语言NLP任务)上的表现 。 如表7所示 , 我们将i-Code(D+M)与之前发布的多模态模型以及参数量相当的语言模型进行了比较 。