高低分辨率全都要!8位华人联合发布史上规模最大、最高清视频数据集

高低分辨率全都要!8位华人联合发布史上规模最大、最高清视频数据集
文章图片
新智元报道
编辑:LRS
【新智元导读】视频语言数据集的规模又刷新记录了!来自MSRA的8位华人联合发布史上最大的视频语言数据集HD-VILA-100M , 也是首个高分辨率大规模数据集!文中还提出一个训练模型 , 基于这个数据训练的模型性能直接提升53.6%!
回想几年前网上信息大部分还是静态的 , 例如图片、小说 。
但随着各大视频网站和短视频的兴起 , 用户在互联网上浏览视频的数量近年来显著增加 , 并且视频创作的质量、分辨率和内容多样性也越来越高!
高低分辨率全都要!8位华人联合发布史上规模最大、最高清视频数据集】把旅游、体育、音乐等日常生活拍成视频分享已经成为了新常态 , 并且通常还会配上一段文字 。
所以AI研究也是紧随其后 , 进入文本+视频的多模态时代 , 例如视频搜索 , 视频推荐 , 视频编辑都需要这种多模态建模的能力!
高低分辨率全都要!8位华人联合发布史上规模最大、最高清视频数据集
文章图片
然而 , 现有的视频语言理解模型(video-languageunderstandingmodels)的发展实际很大程度上是受到了数据集的规模和覆盖范围的限制 。
早期的数据集如MSR-VTT、DiDeMo、EPIC-KITCHENS都是由人类手工标注的视频和文本描述组成 , 由于引入了人工标注 , 所以数据集的构造成本也是急剧上升 , 导致这些数据集的规模也无法做的很大 。
此外这些数据集中只包含了一些描述性的语句 , 那么数据集的复杂性和多样性也受到了很大限制 , 间接影响了后续开发模型的泛化性能 。
高低分辨率全都要!8位华人联合发布史上规模最大、最高清视频数据集
文章图片
也有一些研究人员直接使用经过语音识别(ASR)后的视频一起进行训练 , 由于省去了人工标注视频文本的过程 , 数据集的规模得到了大大提升 。 一个最有代表性的例子就是HowTo100M数据集 , 包含了百万级的视频文本语料 。
虽然数据集的规模是上去了 , 但质量却下来了 。
高低分辨率全都要!8位华人联合发布史上规模最大、最高清视频数据集
文章图片
自动标注的视频数据不管是在质量上 , 还是语义多样性上都和真实场景中的视频存在着很大差距 。
为了更好地理解视频和解决上面提到的数据问题 , 来自微软亚洲研究院MSRA的8位华人最近共同发表了一篇论文 , 主要研究了联合视频和语言(jointvideoandlanguage)的预训练并提出了一个新的数据集HD-VILA-100M(High-resolutionandDiversifiedVIdeoandLAnguage) 。
数据集中的视频类别(videocategory)覆盖范围十分广泛 , 对后续的应用如文本到视频的检索(text-to-videoretrieval)和视频问答(videoQA)场景十分有用 。
高低分辨率全都要!8位华人联合发布史上规模最大、最高清视频数据集
文章图片
这个数据集具有三个主要的特点:
1.规模特别大
数据集中包含了来自300万个视频中的1亿个视频文本对 , 视频时长合计达到了37万个小时 , 比前面提到的HowTo100M的视频时间还要长2.8倍 , 平均句子长度也比HowTo100M长8倍 。
前面提到ASR生成的视频字幕普遍质量不高 , 并且没有标点符号 。 为了克服这个问题 , 研究人员使用GitHub的一个工具puntuator2将字幕切分成多个完整的句子 , 然后通过动态时间规整(DynamicTimeWarping)使用Youtube自带的字幕时间戳对视频片段和句子进行对齐 。
处理后 , HD-VILA-100M数据集中视频片段的平均时长为13.4秒 , 每个句子平均包含32.5个词 。
2.分辨率特别高