模型|这些令人不安的照片表明AI变聪明了！它在学习根据文字生成图片

在全球所有 AI 模型中，OpenAI 的 GPT-3 最能引发公众的遐想。虽然它可以仅凭很少的文本来输出诗歌、短篇小说和歌曲，并且成功地让人们相信这是人类的创作。但是，它在同人类对话时还是显得非常“幼稚”。可尽管如此，技术人员依然认为，创造了 GPT-3 的技术可能是通往更高级 AI 的必经之路。GPT-3 使用大量文本数据进行了训练，那么，假如同时使用文本和图像数据进行训练，会发生什么呢？艾伦人工智能研究所（AI2）在这个问题上取得了进展，技术人员开发了一种新的视觉语言模型，可以根据给定的文本生成对应图像。不同于 GAN 所生成的超现实主义作品，AI2 生成的这些图像看起来非常怪异，但它的确可能是一个实现通用人工智能的新路径。AI“做题家”GPT-3 在分类上属于 “Transformer” 模型，随着 Google BERT 的成功，该模型开始流行。而在 BERT 之前，语言模型可用性不佳。它们虽然具备一定的预测能力，但并不足以生成符合语法和常识的长句子。BERT 通过引入一种称为 “masking（遮罩）” 的新技术，使模型这方面的能力得到了大幅加强。模型会被要求完成类似下面的填空题：这位女士去___锻炼。他们买了一个___面包做三明治。这个想法初衷是，如果强迫模型进行数百万次的这类练习，它是否可能学会如何将单词组合成句子以及如何将句子组合成段落。测试结果表明，模型确实获得了更好地生成和解释文本的能力（Google 正在使用 BERT 帮助在其搜索引擎中提供更多相关的搜索结果）。在证明遮罩行之有效之后，技术人员试图通过将文本中的单词隐藏，将其应用于视觉语言模型，例如：

文章插图

一只站立在树木旁的___。(来源：MIT TR)通过数百万次的训练，它不仅可以发现单词之间的组合模式，还可以发现单词与图像中元素之间的关联。这样的结果就是模型拥有了将文字描述与视觉图像相关联的能力，就像人类的婴儿可以在他们所学的单词同所见事物之间建立联系一样。举个例子，当模型读取到下面的图片，便可以给出一个较为贴切标题，如 “打曲棍球的女人”。或者它们可以回答诸如“球是什么颜色？” 之类的问题，因为模型可以将单词 “球” 与图像中的圆形物体关联。

文章插图

图 | 女子曲棍球比赛 (来源：MIT TR)一图胜千言技术人员想知道这些模型是否真的像婴儿一样 “学会” 了认识这个世界。孩子不仅可以在看到图像时联想到单词，还可以在看到单词时在头脑中浮现出对应的图像，哪怕这个图像是真实和想象的混合体。技术人员尝试让模型做同样的事情：根据文本生成图像。然后模型吐出了无意义的像素图案。

文章插图

图 | 是鸟？是飞机？不，这只是 AI 产生的“神作” (来源：MIT TR)得到这样的结果是有原因的，将文本转换为图像的任务相比其他要困难得多。AI2 的计算机视觉团队负责人 Ani Kembhavi 说，文本并未指定图像中包含的所有内容。因此，模型需要 “联想” 许多现实世界的常识来填充细节。例如，假设 AI 被要求绘制“在道路上行走的长颈鹿”，它需要推断出这条道路更可能是灰色而不是粉色，并且更可能毗邻草地而不是海洋——尽管这些信息都不明确。因此 Kembhavi 和他的同事 Jaemin Cho、Jiasen Lu 和 Hannaneh Hajishirzi 决定看看他们是否可以通过调整遮罩的方式，来教授 AI 所有这些隐式视觉知识。他们训练模型不是为了从对应图片中预测被遮盖的单词，而是为了让它能从文本中 “脑补” 图片中的缺失部分。虽然模型最终生成的图像并不完全真实，但这不是重点。重要的是这预示着模型已经包含了正确的高级视觉概念，即 AI 一定程度上具备了儿童的根据文本画图的能力。