让机器实现多感官进化，云从跨模态新研究入选EMNLP 2021( 二 ) 机器之心专栏云从科技近日

文章图片
一方面，已有的视频片段定位方法通常只考虑了视频片段和整个句子的关系，而忽略了视频片段和句子中每个词语这种更加细致的关系，这样就不能全面地交互视觉和语言的信息。因此，云从和上交大联合团队的研究者们提出了一种coarse-and-fine的交互方式，从粗粒度和细粒度的角度同时考虑了视频片段-句子层面和关系以及视频片段-词语层面的关系。
另一方面，现有的工作往往忽视了不同视频片段之间的关系，或者仅仅采用了几层卷积网络的堆叠，存在计算量大、有噪声影响等缺点。本文的研究者们提出了一种稀疏连接的图网络，仅仅考虑了起始或者终止时间相同的视频片段，高效地建模了不同视频片段之间的关系，帮助模型更好地区分视觉上相似的视频片段。
本文方法
研究者们认为，基于语言查询的视频片段定位任务，在某种程度上和自然语言理解中的多项选择阅读理解任务（Multi-choiceReadingComprehension）类似，可以把给定的视频、查询语言和候选的视频片段分别类比为阅读理解中的文章、问题和候选答案。在将问题转化为阅读理解任务之后，研究者们提出了RaNet来解决该问题。如下为RaNet架构示意图：

文章图片
RaNet一共包含以下5个部分：
多模态的特征编码模块；
候选视频片段的生成模块；
候选视频片段和查询语句的交互模块；
不同视频片段的关系构建模块；
结果选择模块。
特征编码模块中，研究者采用了在时序动作检测（TemporalActionLocalization）中表现优异的GC-NeXt来获取视频序列中的时序信息，使用双向的LSTM来获取语言信息的长时间依赖。
候选视频片段生成模块中，研究者借鉴了之前工作2D-TAN的方式，构建了一个二维的时序网格图，每一个小网格都代表一个候选视频片段，其特征是由起始时间帧的特征和终止时间帧的特征串联而得。如下为候选生成器和特征初始化示意图：
视觉语言交互模块中，研究者同时构建了视频片段-句子层面的关系和视频片段-单词层面的关系。对于视频片段和句子的关系，研究者首先对语言特征进行max-pooling ，然后和视频片段特征进行点乘。对于视频片段和单词的关系，研究者通过语言特征和视频片段特征首先构建出一个注意力权重矩阵，然后再与视频片段特征交互，动态地生成query-aware的视频片段表征。这种粗粒度和细粒度结合的方式能够充分地交互视觉和语言两种模态之间的信息。
视频片段关系构建模块中，研究者将每个候选视频片段视作图的点，将这些视频片段之间的关系视作图的边，构建了视频片段关系的图网络模型。考虑到重叠比较高的视频片段关联性更强，研究者在构建图时仅考虑了和当前候选视频片段具有相同起始或者终止时间的视频片段，在网格图中就是一种十字架的形式。这样构建图的方式不仅可以减少不相关视频片段带来的噪声影响，还能有效提高模型的效率。
结果选择模块中，研究者采用一个卷积层和sigmoid激活层为每个候选视频片段进行打分，根据得分从大到小排序，选择top-1或者top-5作为最终的预测视频片段。
最后，研究者使用了alignmentloss对模型进行了训练：

文章图片
实验结果
研究者通过大量的实验验证了RaNet对于基于语言查询的视频片段定位任务的有效性。