Transformer将在AI领域一统天下?现在下结论还为时过早

选自QuantaMagazine
机器之心编译
作者:StephenOrnes
机器之心编辑部
从自然语言处理任务起家 , 又在图像分类和生成领域大放异彩 , 所向披靡的Transformer会成为下一个神话吗?
想象一下你走进一家本地的五金店 , 在货架上看到一种新型的锤子 。 你听说过这种锤子:它比其他锤子敲得更快、更准确 , 而且在过去的几年里 , 在大多数用途中 , 它已经淘汰了许多其他锤子 。
此外 , 通过一些调整 , 比如这里加一个附件 , 那里拧一个螺丝 , 这种锤子还能变成一把锯 , 其切割速度能媲美其他任何替代品 。 一些处于工具开发前沿的专家表示 , 这把锤子可能预示着所有工具将融合到一个设备中 。
类似的故事正在人工智能领域上演 。 这种多功能的新锤子是一种人工神经网络——一种在现有数据上进行训练以「学习」如何完成某些任务的节点网络——称为Transformer 。 它最初用于处理语言任务 , 但最近已经开始影响其他AI领域 。
Transformer最初出现在2017年的一篇论文中:《AttentionIsAllYouNeed》 。 在其他人工智能方法中 , 系统会首先关注输入数据的局部patch , 然后构建整体 。 例如 , 在语言模型中 , 邻近的单词首先会被组合在一起 。 相比之下 , Transformer运行程序以便输入数据中的每个元素都连接或关注其他元素 。 研究人员将此称为「自注意力」 。 这意味着一旦开始训练 , Transformer就可以看到整个数据集的迹 。
在Transformer出现之前 , 人工智能在语言任务上的进展一直落后于其他领域的发展 。 「在过去10年发生的这场深度学习革命中 , 自然语言处理在某种程度上是后来者 , 」马萨诸塞大学洛厄尔分校的计算机科学家AnnaRumshisky说 , 「从某种意义上说 , NLP曾落后于计算机视觉 , 而Transformer改变了这一点 。 」
Transformer很快成为专注于分析和预测文本的单词识别等应用程序的引领者 。 它引发了一波工具浪潮 , 比如OpenAI的GPT-3可以在数千亿个单词上进行训练并生成连贯的新文本 。
Transformer的成功促使人工智能领域的研究者思考:这个模型还能做些什么?
答卷正在徐徐展开——Transformer被证明具有惊人的丰富功能 。 在某些视觉任务中 , 例如图像分类 , 使用Transformer的神经网络比不使用Transformer的神经网络更快、更准确 。 对于其他人工智能领域的新兴研究 , 例如一次处理多种输入或完成规划任务 , Transformer也可以处理得更多、更好 。
「Transformer似乎在机器学习领域的许多问题上具有相当大的变革性 , 包括计算机视觉 , 」在慕尼黑宝马公司从事与自动驾驶汽车计算机视觉工作的VladimirHaltakov说 。
就在十年前 , AI的不同子领域之间还几乎是互不相通的 , 但Transformer的到来表明了融合的可能性 。 「我认为Transformer之所以如此受欢迎 , 是因为它展示出了通用的潜力 , 」德克萨斯大学奥斯汀分校的计算机科学家AtlasWang说:「我们有充分的理由尝试在整个AI任务范围内尝试使用Transformer 。 」
从「语言」到「视觉」
在《AttentionIsAllYouNeed》发布几个月后 , 扩展Transformer应用范围的最有希望的动作就开始了 。 AlexeyDosovitskiy当时在谷歌大脑柏林办公室工作 , 正在研究计算机视觉 , 这是一个专注于教授计算机如何处理和分类图像的AI子领域 。
Transformer将在AI领域一统天下?现在下结论还为时过早
文章图片
AlexeyDosovitskiy 。
与该领域的几乎所有其他人一样 , 他一直使用卷积神经网络(CNN) 。 多年来 , 正是CNN推动了深度学习 , 尤其是计算机视觉领域的所有重大飞跃 。 CNN通过对图像中的像素重复应用滤波器来进行特征识别 。 基于CNN , 照片应用程序可以按人脸给你的照片分门别类 , 或是将牛油果与云区分开来 。 因此 , CNN被认为是视觉任务必不可少的 。