文本生成图像这么火,你需要了解这些技术的演变( 三 )


文本生成图像这么火,你需要了解这些技术的演变
文章图片
CLIPDraw生成过程:从一组随机的Bezier曲线开始 , 优化曲线的位置和颜色 , 使生成的图形与给定的描述prompt最匹配 。 图片来自原论文 。
文本生成图像这么火,你需要了解这些技术的演变
文章图片
VQGAN-CLIP生成过程 。 图片来自原论文 。
CLIP嵌入并不能捕获所有内容 , 一些有趣的演示证明了它的弱点 。 其中一个广为人知的例子是印刷攻击 。 在这种攻击中 , 图像上的文本可能导致图像的错误分类 。
目前有一些与CLIP结构相似的替代模型 , 例如Google的ALIGN或华为的FILIP 。
GLIDE
GLIDE , 即GuidedLanguagetoImageDiffusionforGenerationandEditing , 是OpenAI推出的文本引导图像生成模型 , 目前已经击败了DALL·E , 但受到的关注相对较少 。 它甚至在OpenAI网站上也没有专门的帖子 。 GLIDE生成分辨率为256×256像素的图像 。
拥有3.5B参数的GLIDE模型(但似乎正确的数字是5B参数 , 因为有一个单独的具有1.5B参数的上采样模型)比12B参数DALL·E更受人们的青睐 , 并且在FID得分上也击败了DALL·E 。
文本生成图像这么火,你需要了解这些技术的演变
文章图片
来自GLIDE的样本 。 图片来自原始论文 。
GLIDE模型还可以进行微调以执行图像修复 , 从而实现强大的文本驱动图像编辑 , 这在DALL·E2中使用 。
文本生成图像这么火,你需要了解这些技术的演变
文章图片
来自GLIDE的文本条件图像修复示例 。 绿色区域被擦除 , 模型根据给定的提示填充这个区域 。 该模型能够匹配周围环境的风格和光线 , 产生逼真的完成效果 。 示例来自原论文 。
GLIDE在发布时可以称作「DALL·E2」 。 现在 , 当一个单独的DALL·E2系统发布时(实际上在论文中称为unCLIP并且大量使用GLIDE本身) , 我们可以将GLIDE称为DALL·E1.5:)
GLIDE类似于另一种称为扩散模型的模型 。 简而言之 , 扩散模型通过扩散步骤链向输入数据添加随机噪声 , 然后它们会学习逆向扩散过程以从噪声中构造图像 。
文本生成图像这么火,你需要了解这些技术的演变
文章图片
去噪扩散模型生成图像 。
下图是Google使用扩散模型生成图像的可视化说明 。
文本生成图像这么火,你需要了解这些技术的演变
文章图片
扩散模型与其他类别的生成模型的比较 。
首先 , 作者训练了一个3.5B参数扩散模型 , 该模型使用文本编码器以自然语言描述为条件 。 接下来 , 他们比较了两种将扩散模型引导到文本prompt的技术:CLIP引导和无分类器引导(后者能产生更好的结果) 。
分类器引导允许扩散模型以分类器的标签为条件 , 并且来自分类器的梯度用于引导样本朝向标签 。
无分类器引导不需要训练单独的分类器模型 。 这只是一种引导形式 , 在有标签和没有标签的扩散模型的预测之间进行插值 。
正如作者所说 , 无分类引导有两个吸引人的特性 。 首先 , 它允许单个模型在引导过程中利用自己的知识 , 而不是依赖于单独(有时更小的)分类模型的知识 。 其次 , 它简化了对难以用分类器预测的信息(例如文本)进行调节时的引导 。
在CLIP引导下 , 分类器被替换为CLIP模型 。 它使用图像的点积和相对于图像的标题编码的梯度 。
在分类器和CLIP引导中 , 我们必须在噪声图像上训练CLIP , 以便在反向扩散过程中获得正确的梯度 。 作者使用了经过明确训练具有噪声感知能力的CLIP模型 , 这些模型被称为噪声CLIP模型 。 尚未在噪声图像上训练的公共CLIP模型仍可用于引导扩散模型 , 但噪声CLIP引导对这种方法表现良好 。