高低分辨率全都要!8位华人联合发布史上规模最大、最高清视频数据集( 二 )


数据集中的所有视频分辨率都是720p , 而目前主流的视频文本数据集的分辨率只有240p和360p 。
3.多样性特别高
数据集涵盖了YouTube上的15个最流行的视频类别 , 例如体育、音乐、汽车等 。 并且研究人员还对各个类别下的视频数量进行了平衡 。
高、低分辨率全都要的模型
有了数据以后就要开始进行训练了!
但由于内存、计算能力等多种现实因素上的限制 , 以前的工作要么采用简单的基于视频帧的端到端的编码器来进行视觉编码和多模态融合 , 要么使用一些训练好的时空(spatio-temporal)编码器来一步步实现对视觉编码和多模态信息的融合 。
几乎没有研究工作在端到端视频语言预训练模型中对时空视频进行联合编码(jointspatio-temporalvideorepresentation) 。
这创新点不是送上门来了吗?
研究人员提出了一个新的模型 , 模型的输入是混合图像序列(hybridimagesequence) , 序列中包含少量高分辨率(HR)视频帧和大量的低分辨率(LR)的视频帧来进行多视频学习的任务(multiplevideolearningtask) 。
高低分辨率全都要!8位华人联合发布史上规模最大、最高清视频数据集
文章图片
这样的模型设计能够实现高分辨率时空视频表征的端到端训练 , 并且在模型设计中解决了两个主要的问题:
1.哪些HR和LR的视频帧应该被提取出来?
研究人员首先随机从一个视频片段(videoclip)中随机采样一些HR视频帧来确保最终学习到的视频特征具有足够的鲁棒性 。
LR视频帧从HR视频帧的附近帧中平均采样抽取得到 , 也保证了中间的HR视频帧包含了和LR相似的空间信息 , 这个操作对于时序特征的学习也是非常关键 。
2.如何从混合图像序列中学到时空特征?
研究人员对HR和LR视频帧分别编码 , 并且使用一个hybridTransformer将把编码后的HR特征和LR特征映射到同一个embedding空间 。 这种设计方式也能确保视频中的时空信息能够以一种可学习的方式同时覆盖HR和LR视频帧 。
研究人员对video-textretrieval任务进行了实验 , 可以看到文中提出的HD-VILA模型在MSR-VTT数据集上以极大的优势超越了以往在HowTo100M数据集上训练的模型 。
在zero-shot的设置下 , HD-VILA甚至比VideoCLIP的R@1的性能好38.5%(10.4->14.4) , 也表明了模型学习到的视频表征具有足够的泛化能力 , 并且微调后的模型已然超越了所有的基线模型 。
高低分辨率全都要!8位华人联合发布史上规模最大、最高清视频数据集
文章图片
在电影数据集LSMDC中 , 模型相对其他基线模型甚至取得了更大的性能收益(53.6%) 。 由于电影与HowTo100M里的视频风格可以看出明显不同 , 所以在HowTo100M上预训练的模型很难适应电影领域 。 并且由于LSMDC中的视频数据分辨率普遍较高 , 而HD-VILA相对其他模型处理高分辨率视频的效果也更好 , 所以性能提升也更大 。
在DiDeMo和ActicityNet数据集上的实验中 , HD-VILA也取得了更好的性能 。 这两个数据集的主要特点就是规模更大、视频类别更丰富 , 每个视频的时间也更长 , 在这种情况下 , 模型需要更好的时序理解能力才能召回正确的结果 , 也符合HD-VILA的训练目标 。
在text-to-visual生成实验中 , 研究人员对比的模型为StyleCLIP和TediGAN , 这两个模型都是利用跨模态的预训练来完成语言引导的图像生成任务 , 并且图像生成质量在业界也是广受好评 。 视觉生成结果的质量一定程度上也可以反映跨模态embedding的质量 。
在text-guidedmanipulation任务的第一个例子中 , 虽然三个模型都成功将头发变得更加大波浪 , 但HD-VILA是唯一一个遵循文本的要求给人物涂上口红的模型 。