Transformer将在AI领域一统天下？现在下结论还为时过早选自QuantaMagazine机器之心编译作

选自QuantaMagazine
机器之心编译
作者：StephenOrnes
机器之心编辑部
从自然语言处理任务起家，又在图像分类和生成领域大放异彩，所向披靡的Transformer会成为下一个神话吗？
想象一下你走进一家本地的五金店，在货架上看到一种新型的锤子。你听说过这种锤子：它比其他锤子敲得更快、更准确，而且在过去的几年里，在大多数用途中，它已经淘汰了许多其他锤子。
此外，通过一些调整，比如这里加一个附件，那里拧一个螺丝，这种锤子还能变成一把锯，其切割速度能媲美其他任何替代品。一些处于工具开发前沿的专家表示，这把锤子可能预示着所有工具将融合到一个设备中。
类似的故事正在人工智能领域上演。这种多功能的新锤子是一种人工神经网络——一种在现有数据上进行训练以「学习」如何完成某些任务的节点网络——称为Transformer 。它最初用于处理语言任务，但最近已经开始影响其他AI领域。
Transformer最初出现在2017年的一篇论文中：《AttentionIsAllYouNeed》。在其他人工智能方法中，系统会首先关注输入数据的局部patch ，然后构建整体。例如，在语言模型中，邻近的单词首先会被组合在一起。相比之下， Transformer运行程序以便输入数据中的每个元素都连接或关注其他元素。研究人员将此称为「自注意力」。这意味着一旦开始训练， Transformer就可以看到整个数据集的迹。
在Transformer出现之前，人工智能在语言任务上的进展一直落后于其他领域的发展。「在过去10年发生的这场深度学习革命中，自然语言处理在某种程度上是后来者，」马萨诸塞大学洛厄尔分校的计算机科学家AnnaRumshisky说，「从某种意义上说， NLP曾落后于计算机视觉，而Transformer改变了这一点。」
Transformer很快成为专注于分析和预测文本的单词识别等应用程序的引领者。它引发了一波工具浪潮，比如OpenAI的GPT-3可以在数千亿个单词上进行训练并生成连贯的新文本。
Transformer的成功促使人工智能领域的研究者思考：这个模型还能做些什么？
答卷正在徐徐展开——Transformer被证明具有惊人的丰富功能。在某些视觉任务中，例如图像分类，使用Transformer的神经网络比不使用Transformer的神经网络更快、更准确。对于其他人工智能领域的新兴研究，例如一次处理多种输入或完成规划任务， Transformer也可以处理得更多、更好。
「Transformer似乎在机器学习领域的许多问题上具有相当大的变革性，包括计算机视觉，」在慕尼黑宝马公司从事与自动驾驶汽车计算机视觉工作的VladimirHaltakov说。
就在十年前， AI的不同子领域之间还几乎是互不相通的，但Transformer的到来表明了融合的可能性。「我认为Transformer之所以如此受欢迎，是因为它展示出了通用的潜力，」德克萨斯大学奥斯汀分校的计算机科学家AtlasWang说：「我们有充分的理由尝试在整个AI任务范围内尝试使用Transformer 。」
从「语言」到「视觉」
在《AttentionIsAllYouNeed》发布几个月后，扩展Transformer应用范围的最有希望的动作就开始了。 AlexeyDosovitskiy当时在谷歌大脑柏林办公室工作，正在研究计算机视觉，这是一个专注于教授计算机如何处理和分类图像的AI子领域。

文章图片
AlexeyDosovitskiy 。
与该领域的几乎所有其他人一样，他一直使用卷积神经网络(CNN) 。多年来，正是CNN推动了深度学习，尤其是计算机视觉领域的所有重大飞跃。 CNN通过对图像中的像素重复应用滤波器来进行特征识别。基于CNN ，照片应用程序可以按人脸给你的照片分门别类，或是将牛油果与云区分开来。因此， CNN被认为是视觉任务必不可少的。