Transformer将在AI领域一统天下?现在下结论还为时过早( 二 )


当时 , Dosovitskiy正在研究该领域最大的挑战之一 , 即在不增加处理时间的前提下 , 将CNN放大:在更大的数据集上训练 , 表示更高分辨率的图像 。 但随后他看到 , Transformer已经取代了以前几乎所有与语言相关的AI任务的首选工具 。 「我们显然从正在发生的事情中受到了启发 , 」他说 , 「我们想知道 , 是否可以在视觉上做类似的事情?」这个想法某种程度上说得通——毕竟 , 如果Transformer可以处理大数据集的单词 , 为什么不能处理图片呢?
最终的结果是:在2021年5月的一次会议上 , 一个名为VisionTransformer(ViT)的网络出现了 。 该模型的架构与2017年提出的第一个Transformer的架构几乎相同 , 只有微小的变化 , 这让它能够做到分析图像 , 而不只是文字 。 「语言往往是离散的 , 」Rumshisky说:「所以必须使图像离散化 。 」
ViT团队知道 , 语言的方法无法完全模仿 , 因为每个像素的自注意力在计算时间上会非常昂贵 。 所以 , 他们将较大的图像划分为正方形单元或token 。 大小是任意的 , 因为token可以根据原始图像的分辨率变大或变小(默认为一条边16像素) , 但通过分组处理像素 , 并对每个像素应用自注意力 , ViT可以快速处理大型训练数据集 , 从而产生越来越准确的分类 。
Transformer能够以超过90%的准确率对图像进行分类 , 这比Dosovitskiy预期的结果要好得多 , 并在ImageNet图像数据集上实现了新的SOTATop-1准确率 。 ViT的成功表明 , 卷积可能不像研究人员认为的那样对计算机视觉至关重要 。
与Dosovitskiy合作开发ViT的谷歌大脑苏黎世办公室的NeilHoulsby说:「我认为CNN很可能在中期被视觉Transformer或其衍生品所取代 。 」他认为 , 未来的模型可能是纯粹的Transformer , 或者是为现有模型增加自注意力的方法 。
一些其他结果验证了这些预测 。 研究人员定期在ImageNet数据库上测试他们的图像分类模型 , 在2022年初 , ViT的更新版本仅次于将CNN与Transformer相结合的新方法 。 而此前长期的冠军——没有Transformer的CNN , 目前只能勉强进入前10名 。
Transformer的工作原理
ImageNet结果表明 , Transformer可以与领先的CNN竞争 。 但谷歌大脑加州山景城办公室的计算机科学家MaithraRaghu想知道 , 它们是否和CNN一样「看到」图像 。 神经网络是一个难以破译的「黑盒子」 , 但有一些方法可以窥探其内部——例如通过逐层检查网络的输入和输出了解训练数据如何流动 。 Raghu的团队基本上就是这样做的——他们将ViT拆开了 。
Transformer将在AI领域一统天下?现在下结论还为时过早
文章图片
MaithraRaghu
她的团队确定了自注意力在算法中导致不同感知的方式 。 归根结底 , Transformer的力量来自于它处理图像编码数据的方式 。 「在CNN中 , 你是从非常局部的地方开始 , 然后慢慢获得全局视野 , 」Raghu说 。 CNN逐个像素地识别图像 , 通过从局部到全局的方式来识别角或线等特征 。 但是在带有自注意力的Transformer中 , 即使是信息处理的第一层也会在相距很远的图像位置之间建立联系(就像语言一样) 。 如果说CNN的方法就像从单个像素开始并用变焦镜头缩小远处物体的像的放大倍数 , 那么Transformer就是慢慢地将整个模糊图像聚焦 。
这种差异在Transformer最初专注的语言领域更容易理解 , 思考一下这些句子:「猫头鹰发现了一只松鼠 。 它试图用爪子抓住它 , 但只抓住了尾巴的末端 。 」第二句的结构令人困惑:「它」指的是什么?只关注「它」邻近的单词的CNN会遇到困难 , 但是将每个单词与其他单词连接起来的Transformer可以识别出猫头鹰在抓松鼠 , 而松鼠失去了部分尾巴 。