高低分辨率全都要！8位华人联合发布史上规模最大、最高清视频数据集新智元报道编辑：LRS【新智元

文章图片
新智元报道
编辑：LRS
【新智元导读】视频语言数据集的规模又刷新记录了！来自MSRA的8位华人联合发布史上最大的视频语言数据集HD-VILA-100M ，也是首个高分辨率大规模数据集！文中还提出一个训练模型，基于这个数据训练的模型性能直接提升53.6%！
回想几年前网上信息大部分还是静态的，例如图片、小说。
但随着各大视频网站和短视频的兴起，用户在互联网上浏览视频的数量近年来显著增加，并且视频创作的质量、分辨率和内容多样性也越来越高！
【高低分辨率全都要！8位华人联合发布史上规模最大、最高清视频数据集】把旅游、体育、音乐等日常生活拍成视频分享已经成为了新常态，并且通常还会配上一段文字。
所以AI研究也是紧随其后，进入文本+视频的多模态时代，例如视频搜索，视频推荐，视频编辑都需要这种多模态建模的能力！

文章图片
然而，现有的视频语言理解模型（video-languageunderstandingmodels）的发展实际很大程度上是受到了数据集的规模和覆盖范围的限制。
早期的数据集如MSR-VTT、DiDeMo、EPIC-KITCHENS都是由人类手工标注的视频和文本描述组成，由于引入了人工标注，所以数据集的构造成本也是急剧上升，导致这些数据集的规模也无法做的很大。
此外这些数据集中只包含了一些描述性的语句，那么数据集的复杂性和多样性也受到了很大限制，间接影响了后续开发模型的泛化性能。

文章图片
也有一些研究人员直接使用经过语音识别（ASR）后的视频一起进行训练，由于省去了人工标注视频文本的过程，数据集的规模得到了大大提升。一个最有代表性的例子就是HowTo100M数据集，包含了百万级的视频文本语料。
虽然数据集的规模是上去了，但质量却下来了。

文章图片
自动标注的视频数据不管是在质量上，还是语义多样性上都和真实场景中的视频存在着很大差距。
为了更好地理解视频和解决上面提到的数据问题，来自微软亚洲研究院MSRA的8位华人最近共同发表了一篇论文，主要研究了联合视频和语言（jointvideoandlanguage）的预训练并提出了一个新的数据集HD-VILA-100M（High-resolutionandDiversifiedVIdeoandLAnguage）。
数据集中的视频类别（videocategory）覆盖范围十分广泛，对后续的应用如文本到视频的检索（text-to-videoretrieval）和视频问答（videoQA）场景十分有用。

文章图片
这个数据集具有三个主要的特点：
1.规模特别大
数据集中包含了来自300万个视频中的1亿个视频文本对，视频时长合计达到了37万个小时，比前面提到的HowTo100M的视频时间还要长2.8倍，平均句子长度也比HowTo100M长8倍。
前面提到ASR生成的视频字幕普遍质量不高，并且没有标点符号。为了克服这个问题，研究人员使用GitHub的一个工具puntuator2将字幕切分成多个完整的句子，然后通过动态时间规整（DynamicTimeWarping）使用Youtube自带的字幕时间戳对视频片段和句子进行对齐。
处理后， HD-VILA-100M数据集中视频片段的平均时长为13.4秒，每个句子平均包含32.5个词。
2.分辨率特别高