2040张图片训练出的ViT,准确率96.7%,连迁移性能都令人惊讶( 二 )


1、数据
目前的ViT模型通常在一个大规模的数据集上进行预训练 , 然后在各种下游任务中进行微调 。 由于缺乏典型的卷积归纳偏向 , 这些模型比普通的CNN更耗费数据 。
因此从头开始训练ViT , 能够用图像总量有限的任务是至关重要的 。
2、算力
大规模的数据集、大量的耗时和复杂的骨干网络的 , 让ViT训练的算力成本非常昂贵 。 这种现象使ViT成为少数机构研究人员的特权 。
3、灵活性
预训练后再进行下游微调的模式有时会很麻烦 。
例如 , 我们可能需要为同一任务训练10个不同的模型 , 并将它们部署在不同的硬件平台上 , 但在一个大规模的数据集上预训练10个模型是不现实的 。
2040张图片训练出的ViT,准确率96.7%,连迁移性能都令人惊讶
文章图片
在上图中 , 很明显与从头开始训练相比 , ImageNet预训练的模型需要更多的参数和计算成本 。
在小数据集上进行预训练时的迁移能力 。 每个单元格和列中精度最高的元素分别用下划线和粗体表示
最后 , 在下表中 , 作者评估了在不同数据集上预训练模型的迁移精度 。
对角线上的单元(灰色)是在同一数据集上进行预训练和微调 。 对角线外的单元格评估了这些小数据集的迁移性能 。
2040张图片训练出的ViT,准确率96.7%,连迁移性能都令人惊讶
文章图片
从这张表中 , 我们可以看到以下几点:
即使在小数据集上进行预训练 , ViT也有良好的迁移能力 。 与SimCLR和SupCon相比 , 该方法在所有这些数据集上也有更高的迁移精度 。 即使预训练的数据集和目标数据集不在同一领域 , 也能获得令人惊讶的好结果 。 例如 , 在Indoor67上预训练的模型在转移到Aircraft上时获得了最高的准确性 。作者简介
本文第一作者是南京大学在读博士曹云浩 , 通讯作者是南京大学人工智能学院吴建鑫教授 。
2040张图片训练出的ViT,准确率96.7%,连迁移性能都令人惊讶
文章图片
吴建鑫本科和硕士毕业于南京大学计算机专业 , 博士毕业于佐治亚理工 。 2013年 , 他加入南京大学科学与技术系 , 任教授、博士生导师 , 曾担任ICCV2015领域主席、CVPR2017领域主席 , 现为PatternRecognition期刊编委 。
参考链接:[1]https://arxiv.org/abs/2201.10728[2]https://cs.nju.edu.cn/wujx/index.htm