50亿图文中提取中文跨模态基准，奇虎360预训练框架超越多项SOTA( 二 ) 机器之心专栏作者：奇虎360人

数据集概览
预训练数据集ZeroCorpus
现有数据收集方法存在两个主要的局限。其一，仅通过爬取方式收集到的图文对图文对应关系较弱，存在较大噪声；其二，图像往往只包含一个对应文本，文本数据缺乏多样性。
为了克服上述局限，研究者为中文图文预训练创建了一个新数据集——ZeroCorpus 。他们对图像搜索引擎中的50亿张图像，按照用户点击进行排序，排序靠前的图片表明用户查询时点击次数最多，说明该图片和搜索查询文本最相关。进一步，研究者还删除了不恰当和有害的文本描述，并过滤掉有害的图片。上述流程，最大程度提高了图片和文本数据的对应关系，过滤得到高质量图片。研究者依照上述方式共处理得到大约2.5亿最相关且高质量的图文对，最终随机抽取其中2300万个图文对用于构建公开预训练数据集。
研究者还为每个图像提供了多样化的文本描述，包括标题（Title）、内容（Content）和图像查询词（ImageQuery）等。这些包含多个文本在内的信息，可以用于构建不同的跨模态任务，便于更全面地建模和研究图文之间的跨模态关系。下图显示了一些具体例子。

文章图片
Zero-Corpus图文对示例。
下游数据集
【50亿图文中提取中文跨模态基准，奇虎360预训练框架超越多项SOTA】为了评估预训练模型的性能，大多数工作都会在各种下游数据集上进行实验。与现有具有英文描述的下游数据集相比，带有中文文本的下游数据集很少。
为此，研究者构建了四个中文图文数据集，分别是ICM、IQM、ICR和IQR 。在预训练数据处理基础上（经过点击次数排序，以及优质内容过滤），进一步通过人工标记这些下游任务的标签，保证数据的准确性。对于每个下游任务数据集，按照8:1:1的比例划分训练集、验证集和测试集。与预训练数据不同的是，这些下游任务的数据集，每个图像只保留一个对应的文本。
图像标题匹配数据集（Image-CaptionMatchingDataset,ICM）用于长文本图文匹配分类任务。每个图像具有一个对应的标题文本，对图像进行详细描述。研究者首先使用CTR选择最相关的对，然后通过人工标注校准，共获得了40万个图文对，包括20万个正样本和20万个反样本。
图像查询匹配数据集（Image-QueryMatchingDataset,IQM）用于短文本图文匹配分类任务。与ICM数据收集方式相近，只是使用了搜索查询来替代详细的描述文本。 IQM同样包含20万个正样本和20万个反样本
图像标题检索数据集（Image-CaptionRetrievalDataset,ICR）用于长文本图文互检任务。研究者采用与ICM相同的规则收集了20万个图文对。
图像查询检索数据集（Image-QueryRetrievalDataset,IQR）用于短文本图文互检任务。研究者采用与IQM相同的规则收集了20万个图文对。

文章图片
从左到右依次为ICM、IQM、ICR和IQR数据集中的图文示例。
此前的Flickr30k-CN使用机器翻译翻译了Flickr30k的训练集和验证集，但机器翻译的结果普遍存在两类问题。一方面，部分句子存在一定的翻译错误；另一方面，一些句子的中文语义并不通顺。
因此，研究者邀请了六位中英文语言学专业人士重新翻译了Flickr30k的所有数据，并对每个句子进行了双重检查，最终生成新数据集Flickr30k-ChineseAll（Flickr30k-CNA），用于进行图文跨模态任务评测。