文本生成图像这么火，你需要了解这些技术的演变( 三 ) 选自Intento作者：GrigorySapunov机

文章图片
CLIPDraw生成过程：从一组随机的Bezier曲线开始，优化曲线的位置和颜色，使生成的图形与给定的描述prompt最匹配。图片来自原论文。

文章图片
VQGAN-CLIP生成过程。图片来自原论文。
CLIP嵌入并不能捕获所有内容，一些有趣的演示证明了它的弱点。其中一个广为人知的例子是印刷攻击。在这种攻击中，图像上的文本可能导致图像的错误分类。
目前有一些与CLIP结构相似的替代模型，例如Google的ALIGN或华为的FILIP 。
GLIDE
GLIDE ，即GuidedLanguagetoImageDiffusionforGenerationandEditing ，是OpenAI推出的文本引导图像生成模型，目前已经击败了DALL·E ，但受到的关注相对较少。它甚至在OpenAI网站上也没有专门的帖子。 GLIDE生成分辨率为256×256像素的图像。
拥有3.5B参数的GLIDE模型（但似乎正确的数字是5B参数，因为有一个单独的具有1.5B参数的上采样模型）比12B参数DALL·E更受人们的青睐，并且在FID得分上也击败了DALL·E 。

文章图片
来自GLIDE的样本。图片来自原始论文。
GLIDE模型还可以进行微调以执行图像修复，从而实现强大的文本驱动图像编辑，这在DALL·E2中使用。

文章图片
来自GLIDE的文本条件图像修复示例。绿色区域被擦除，模型根据给定的提示填充这个区域。该模型能够匹配周围环境的风格和光线，产生逼真的完成效果。示例来自原论文。
GLIDE在发布时可以称作「DALL·E2」。现在，当一个单独的DALL·E2系统发布时（实际上在论文中称为unCLIP并且大量使用GLIDE本身），我们可以将GLIDE称为DALL·E1.5:)
GLIDE类似于另一种称为扩散模型的模型。简而言之，扩散模型通过扩散步骤链向输入数据添加随机噪声，然后它们会学习逆向扩散过程以从噪声中构造图像。

文章图片
去噪扩散模型生成图像。
下图是Google使用扩散模型生成图像的可视化说明。

文章图片
扩散模型与其他类别的生成模型的比较。
首先，作者训练了一个3.5B参数扩散模型，该模型使用文本编码器以自然语言描述为条件。接下来，他们比较了两种将扩散模型引导到文本prompt的技术：CLIP引导和无分类器引导（后者能产生更好的结果）。
分类器引导允许扩散模型以分类器的标签为条件，并且来自分类器的梯度用于引导样本朝向标签。
无分类器引导不需要训练单独的分类器模型。这只是一种引导形式，在有标签和没有标签的扩散模型的预测之间进行插值。
正如作者所说，无分类引导有两个吸引人的特性。首先，它允许单个模型在引导过程中利用自己的知识，而不是依赖于单独（有时更小的）分类模型的知识。其次，它简化了对难以用分类器预测的信息（例如文本）进行调节时的引导。
在CLIP引导下，分类器被替换为CLIP模型。它使用图像的点积和相对于图像的标题编码的梯度。
在分类器和CLIP引导中，我们必须在噪声图像上训练CLIP ，以便在反向扩散过程中获得正确的梯度。作者使用了经过明确训练具有噪声感知能力的CLIP模型，这些模型被称为噪声CLIP模型。尚未在噪声图像上训练的公共CLIP模型仍可用于引导扩散模型，但噪声CLIP引导对这种方法表现良好。