生成|用企鹅做出的炸鸡什么样？“毕加索”给出了答案( 二 ) 毕加索|长颈鹿|炸鸡

文章插图

还可以生成“横截面图”，这西瓜让AI切的稀碎：

文章插图

其他的功能还有很多，例如“推理背景细节”，给出一个大概的方向让AI补充画面。像是“早晨，一只水豚坐在森林里的画”，AI会根据关键词，推断光线一类的需求，然后生成不同风格的“画”这个结果，看效果确实艺术极了：

文章插图

而我最喜欢的是“合并不相关的概念”。通常来说，我们组合一个词汇都是用于描述真实存在的事物，例如木质的桌子。不过好玩的是，DALL·E可以将不同概念的对象“强行”缝合，创造出新的东西，举个例子，设置由“蜗牛”组成的“汉堡”，于是就出现了汉堡蜗牛：

文章插图

感觉类似的生成方式，很适合做设计。下图的关键词是，一个“冰川”“形式”的“茶壶”：【生成|用企鹅做出的炸鸡什么样？“毕加索”给出了答案】

文章插图

更进一步还可以制作“脑洞插画”，“皮卡丘”“穿着西装”“擤鼻涕”：

文章插图

“动物与动物之间的嵌合体”，用“长颈鹿”组成的“鸡”：

文章插图

还有神话中的不太好想象的“猫龙”，在AI眼里，竟然是长成这样的：

文章插图

DALL-E，是什么？如果你对去年的GTP-3有印象，就能更简单的理解DALL·E。对，GTP-3就是那个给一些词或者句子，就能够自己写文章的那个AI。

文章插图

这次的DALL·E也是类似的功能，只不过变成给文字生成图片了。其本质跟GPT-3一样，还是变压器语言模型。在GTP-3那里，变压器是从“文字到文字”，这个DALL·E则更进一步，变成了“文字到图片”。

文章插图

是不是很神奇？那么，这个AI又是如何做到的呢？根据DALL·E创造者OpenAI的介绍，实现这个DALL·E，有两个关键的核心。第一个，是接收数据流进行训练。DALL·E会接收图像和文字所组合的数据流，在模型训练之前，需要对数据进行预处理，一次接受后，会用到1280个标记，其中256个用于标记文本，1024个用于标记图像。

文章插图

之后，便是对这些数据进行自回归建模，这时候，DALL·E使用了一种名为“自注意力层”以及其中的“注意遮罩”。怎么理解这个概念呢？大家可以回想一下，平时你在聚精会神地观察某个东西的时候，是不是会忽略周围的东西，这时候，你的注意力都集中在那个事物上？

文章插图

是的，在AI上，也有类似的概念：注意力机制。简单来说，就是用算法，让AI可以在不同外界需要下去选择性地观察，找出最有用的点。不同的算法得出的不同结果，就类似于咱们对同一事物的不同聚焦点，正如诗云“横看成岭侧成峰”。而在“自注意力”上，其实与注意力，只差了一个字，它是后者的一种变体。二者的区别，就是“自注意力”减少了对外部信息的依赖，在原本就具有的“注意力”分析上，更侧重于分析数据流内部各标记的相关性。