2040张图片训练出的ViT，准确率96.7%，连迁移性能都令人惊讶( 二 ) 晓查发自凹非寺量子位|公众号

1、数据
目前的ViT模型通常在一个大规模的数据集上进行预训练，然后在各种下游任务中进行微调。由于缺乏典型的卷积归纳偏向，这些模型比普通的CNN更耗费数据。
因此从头开始训练ViT ，能够用图像总量有限的任务是至关重要的。
2、算力
大规模的数据集、大量的耗时和复杂的骨干网络的，让ViT训练的算力成本非常昂贵。这种现象使ViT成为少数机构研究人员的特权。
3、灵活性
预训练后再进行下游微调的模式有时会很麻烦。
例如，我们可能需要为同一任务训练10个不同的模型，并将它们部署在不同的硬件平台上，但在一个大规模的数据集上预训练10个模型是不现实的。

文章图片
在上图中，很明显与从头开始训练相比， ImageNet预训练的模型需要更多的参数和计算成本。
在小数据集上进行预训练时的迁移能力。每个单元格和列中精度最高的元素分别用下划线和粗体表示
最后，在下表中，作者评估了在不同数据集上预训练模型的迁移精度。
对角线上的单元（灰色）是在同一数据集上进行预训练和微调。对角线外的单元格评估了这些小数据集的迁移性能。

文章图片
从这张表中，我们可以看到以下几点：
即使在小数据集上进行预训练， ViT也有良好的迁移能力。与SimCLR和SupCon相比，该方法在所有这些数据集上也有更高的迁移精度。即使预训练的数据集和目标数据集不在同一领域，也能获得令人惊讶的好结果。例如，在Indoor67上预训练的模型在转移到Aircraft上时获得了最高的准确性。作者简介
本文第一作者是南京大学在读博士曹云浩，通讯作者是南京大学人工智能学院吴建鑫教授。

文章图片
吴建鑫本科和硕士毕业于南京大学计算机专业，博士毕业于佐治亚理工。 2013年，他加入南京大学科学与技术系，任教授、博士生导师，曾担任ICCV2015领域主席、CVPR2017领域主席，现为PatternRecognition期刊编委。
参考链接：[1]https://arxiv.org/abs/2201.10728[2]https://cs.nju.edu.cn/wujx/index.htm