文本生成图像这么火，你需要了解这些技术的演变( 五 ) 选自Intento作者：GrigorySapunov机

对于「用克劳德·莫奈的风格画一幅狐狸坐在日出时分田野里的画」的要求，两个版本的系统生成的图片，图片来自原文章。
DALL·E2可以将概念、属性和风格结合起来：

文章图片
原文中的示例。
DALL·E2还可以基于文本引导进行图像编辑，这是GLIDE中的功能。它可以在考虑阴影、反射和纹理的同时添加和删除元素：

文章图片
将柯基犬添加到图像上的特定位置，图片来自原论文中。
DALL·E2还可用于生成原始图像的变体：

文章图片
生成图像的变体，图片来自原文。
DALL·E2也存在一些问题。特别是unCLIP在将属性绑定到对象方面比GLIDE模型更差。例如， unCLIP比GLIDE更难面对必须将两个单独的对象（立方体）绑定到两个单独的属性（颜色）的prompt：

文章图片
unCLIP生成连贯的文本上也有一些困境：

文章图片
另一个问题是unCLIP很难在复杂场景中生成细节：

文章图片
模型内部发生了一些改变。下图是CLIP和GLIDE的结合，模型本身（全文条件图像生成堆栈）在论文内部称为unCLIP ，因为它通过反转CLIP图像编码器生成图像。
该模型的工作方式如下：CLIP模型是单独训练的。然后CLIP文本编码器为输入文本（标题）生成嵌入。然后一个特殊的先验模型基于文本嵌入生成图像嵌入。然后扩散解码器基于图像嵌入生成图像。解码器本质上将图像嵌入反转回图像。

文章图片
系统的宏观概述。一些细节（如解码器文本条件）没有显示。图片来自原论文。
CLIP模型使用ViT-H/16图像编码器，它使用256×256分辨率的图像，宽度为1280 ，带有32个Transformer块（它比原始CLIP工作中最大的ViT-L更深）。文本编码器是一个带有因果注意掩码的Transformer ，宽度为1024和24个Transformer块（原始CLIP模型有12个Transformer块）。尚不清楚文本transformer的注意力跨度是否与原始CLIP模型中的相同（76个token）。
扩散解码器是经过修改的GLIDE ，具有3.5B参数。 CLIP图像嵌入被投影并添加到现有的时间步嵌入中。 CLIP嵌入也被投影到四个额外的上下文token中，这些token连接到GLIDE文本编码器的输出序列。保留了原始GLIDE的文本条件路径，因为它可以让扩散模型学习CLIP未能捕获的自然语言方面（然而，它帮助不大）。在训练期间， 10%的时间用于将CLIP嵌入随机设置为零， 50%的时间随机删除文本标题。
解码器生成64×64像素的图像，然后两个上采样扩散模型随后生成256×256和1024×1024的图像，前者具有700M参数，后者具有300M参数。为了提高上采样的鲁棒性，在训练过程中条件图像被轻微损坏。第一个上采样阶段使用高斯模糊，第二个阶段使用更多样化的BSR降级，包括JPEG压缩伪影、相机传感器噪声、双线性和双三次插值、高斯噪声。这些模型在目标大小的四分之一的随机图像上进行训练。文本调节不用于上采样模型。
先验根据文本描述生成图像嵌入。作者探索了先验模型的两个不同模型类：自回归(AR)先验和扩散先验。两种先验的模型都有1B参数。