文本生成图像这么火,你需要了解这些技术的演变( 五 )


对于「用克劳德·莫奈的风格画一幅狐狸坐在日出时分田野里的画」的要求 , 两个版本的系统生成的图片 , 图片来自原文章 。
DALL·E2可以将概念、属性和风格结合起来:
文本生成图像这么火,你需要了解这些技术的演变
文章图片
原文中的示例 。
DALL·E2还可以基于文本引导进行图像编辑 , 这是GLIDE中的功能 。 它可以在考虑阴影、反射和纹理的同时添加和删除元素:
文本生成图像这么火,你需要了解这些技术的演变
文章图片
将柯基犬添加到图像上的特定位置 , 图片来自原论文中 。
DALL·E2还可用于生成原始图像的变体:
文本生成图像这么火,你需要了解这些技术的演变
文章图片
生成图像的变体 , 图片来自原文 。
DALL·E2也存在一些问题 。 特别是unCLIP在将属性绑定到对象方面比GLIDE模型更差 。 例如 , unCLIP比GLIDE更难面对必须将两个单独的对象(立方体)绑定到两个单独的属性(颜色)的prompt:
文本生成图像这么火,你需要了解这些技术的演变
文章图片
unCLIP生成连贯的文本上也有一些困境:
文本生成图像这么火,你需要了解这些技术的演变
文章图片
另一个问题是unCLIP很难在复杂场景中生成细节:
文本生成图像这么火,你需要了解这些技术的演变
文章图片
模型内部发生了一些改变 。 下图是CLIP和GLIDE的结合 , 模型本身(全文条件图像生成堆栈)在论文内部称为unCLIP , 因为它通过反转CLIP图像编码器生成图像 。
该模型的工作方式如下:CLIP模型是单独训练的 。 然后CLIP文本编码器为输入文本(标题)生成嵌入 。 然后一个特殊的先验模型基于文本嵌入生成图像嵌入 。 然后扩散解码器基于图像嵌入生成图像 。 解码器本质上将图像嵌入反转回图像 。
文本生成图像这么火,你需要了解这些技术的演变
文章图片
系统的宏观概述 。 一些细节(如解码器文本条件)没有显示 。 图片来自原论文 。
CLIP模型使用ViT-H/16图像编码器 , 它使用256×256分辨率的图像 , 宽度为1280 , 带有32个Transformer块(它比原始CLIP工作中最大的ViT-L更深) 。 文本编码器是一个带有因果注意掩码的Transformer , 宽度为1024和24个Transformer块(原始CLIP模型有12个Transformer块) 。 尚不清楚文本transformer的注意力跨度是否与原始CLIP模型中的相同(76个token) 。
扩散解码器是经过修改的GLIDE , 具有3.5B参数 。 CLIP图像嵌入被投影并添加到现有的时间步嵌入中 。 CLIP嵌入也被投影到四个额外的上下文token中 , 这些token连接到GLIDE文本编码器的输出序列 。 保留了原始GLIDE的文本条件路径 , 因为它可以让扩散模型学习CLIP未能捕获的自然语言方面(然而 , 它帮助不大) 。 在训练期间 , 10%的时间用于将CLIP嵌入随机设置为零 , 50%的时间随机删除文本标题 。
解码器生成64×64像素的图像 , 然后两个上采样扩散模型随后生成256×256和1024×1024的图像 , 前者具有700M参数 , 后者具有300M参数 。 为了提高上采样的鲁棒性 , 在训练过程中条件图像被轻微损坏 。 第一个上采样阶段使用高斯模糊 , 第二个阶段使用更多样化的BSR降级 , 包括JPEG压缩伪影、相机传感器噪声、双线性和双三次插值、高斯噪声 。 这些模型在目标大小的四分之一的随机图像上进行训练 。 文本调节不用于上采样模型 。
先验根据文本描述生成图像嵌入 。 作者探索了先验模型的两个不同模型类:自回归(AR)先验和扩散先验 。 两种先验的模型都有1B参数 。