50亿图文中提取中文跨模态基准,奇虎360预训练框架超越多项SOTA( 二 )


数据集概览
预训练数据集ZeroCorpus
现有数据收集方法存在两个主要的局限 。 其一 , 仅通过爬取方式收集到的图文对图文对应关系较弱 , 存在较大噪声;其二 , 图像往往只包含一个对应文本 , 文本数据缺乏多样性 。
为了克服上述局限 , 研究者为中文图文预训练创建了一个新数据集——ZeroCorpus 。 他们对图像搜索引擎中的50亿张图像 , 按照用户点击进行排序 , 排序靠前的图片表明用户查询时点击次数最多 , 说明该图片和搜索查询文本最相关 。 进一步 , 研究者还删除了不恰当和有害的文本描述 , 并过滤掉有害的图片 。 上述流程 , 最大程度提高了图片和文本数据的对应关系 , 过滤得到高质量图片 。 研究者依照上述方式共处理得到大约2.5亿最相关且高质量的图文对 , 最终随机抽取其中2300万个图文对用于构建公开预训练数据集 。
研究者还为每个图像提供了多样化的文本描述 , 包括标题(Title)、内容(Content)和图像查询词(ImageQuery)等 。 这些包含多个文本在内的信息 , 可以用于构建不同的跨模态任务 , 便于更全面地建模和研究图文之间的跨模态关系 。 下图显示了一些具体例子 。
50亿图文中提取中文跨模态基准,奇虎360预训练框架超越多项SOTA
文章图片
Zero-Corpus图文对示例 。
下游数据集
50亿图文中提取中文跨模态基准,奇虎360预训练框架超越多项SOTA】为了评估预训练模型的性能 , 大多数工作都会在各种下游数据集上进行实验 。 与现有具有英文描述的下游数据集相比 , 带有中文文本的下游数据集很少 。
为此 , 研究者构建了四个中文图文数据集 , 分别是ICM、IQM、ICR和IQR 。 在预训练数据处理基础上(经过点击次数排序 , 以及优质内容过滤) , 进一步通过人工标记这些下游任务的标签 , 保证数据的准确性 。 对于每个下游任务数据集 , 按照8:1:1的比例划分训练集、验证集和测试集 。 与预训练数据不同的是 , 这些下游任务的数据集 , 每个图像只保留一个对应的文本 。
图像标题匹配数据集(Image-CaptionMatchingDataset,ICM)用于长文本图文匹配分类任务 。 每个图像具有一个对应的标题文本 , 对图像进行详细描述 。 研究者首先使用CTR选择最相关的对 , 然后通过人工标注校准 , 共获得了40万个图文对 , 包括20万个正样本和20万个反样本 。
图像查询匹配数据集(Image-QueryMatchingDataset,IQM)用于短文本图文匹配分类任务 。 与ICM数据收集方式相近 , 只是使用了搜索查询来替代详细的描述文本 。 IQM同样包含20万个正样本和20万个反样本
图像标题检索数据集(Image-CaptionRetrievalDataset,ICR)用于长文本图文互检任务 。 研究者采用与ICM相同的规则收集了20万个图文对 。
图像查询检索数据集(Image-QueryRetrievalDataset,IQR)用于短文本图文互检任务 。 研究者采用与IQM相同的规则收集了20万个图文对 。
50亿图文中提取中文跨模态基准,奇虎360预训练框架超越多项SOTA
文章图片
从左到右依次为ICM、IQM、ICR和IQR数据集中的图文示例 。
此前的Flickr30k-CN使用机器翻译翻译了Flickr30k的训练集和验证集 , 但机器翻译的结果普遍存在两类问题 。 一方面 , 部分句子存在一定的翻译错误;另一方面 , 一些句子的中文语义并不通顺 。
因此 , 研究者邀请了六位中英文语言学专业人士重新翻译了Flickr30k的所有数据 , 并对每个句子进行了双重检查 , 最终生成新数据集Flickr30k-ChineseAll(Flickr30k-CNA) , 用于进行图文跨模态任务评测 。