文本生成图像这么火,你需要了解这些技术的演变( 六 )
在AR先验中 , CLIP图像嵌入被转换为一系列离散代码 , 并根据标题进行自回归预测 。 在扩散先验中 , 连续嵌入向量直接使用以标题为条件的高斯扩散模型进行建模 。
除了标题之外 , 先验模型还可以以CLIP文本嵌入为条件 , 因为它是标题的确定性函数 。 为了提高采样质量 , 作者还通过在训练期间10%的时间随机删除此文本条件信息 , 启用了对AR和扩散先验使用无分类器引导的采样 。
对于AR先验 , 主成分分析(PCA)降低了CLIP图像嵌入的维数 。 1024个主成分中有319个保留了99%以上的信息 。 每个维度量化为1024个桶 。 作者通过将文本标题和CLIP文本嵌入编码为序列的前缀来调节AR先验 。 此外 , 它们在文本嵌入和图像嵌入之间添加一个表征(量化的)点积的token 。 这允许在更高的点积上调整模型 , 因为更高的文本图像点积对应于更好地描述图像的标题 。 点积是从分布的上半部分采样的 。 使用带有因果注意掩码的Transformer模型预测生成的序列 。
对于扩散先验 , 具有因果注意掩码的仅解码器(decoder-only)Transformer在由以下成分组成的序列上进行训练:
编码的文本
CLIP文本嵌入
扩散时间步长的嵌入
噪声CLIP图像嵌入
最终的嵌入 , 其来自Transformer的输出用于预测无噪声CLIP图像嵌入 。
不使用点积来调节扩散先验 。 相反 , 为了提高采样时间的质量 , 生成了两个图像嵌入样本 , 并选择了一个具有更高点积和文本嵌入的样本 。
对于可比较的模型大小和减少的训练计算 , 扩散先验优于AR先验 。 在与GLIDE的成对比较中 , 扩散先验也比AR先验表现更好 。
文章图片
作者还对先验的重要性进行了调查 。 他们尝试使用不同的信号来调节相同的解码器:1、文本标题和零CLIP嵌入 , 2、文本标题和CLIP文本嵌入(就好像它是图像嵌入一样) , 3、由先验生成的文本和CLIP图像嵌入 。 仅根据标题对解码器进行调节显然是最差的 , 但对文本嵌入零样本进行调节确实会产生符合期望的结果 。
文章图片
使用不同的调节信号 , 图片来自原文 。
在训练编码器时 , 作者以相同的概率从CLIP和DALL-E数据集(总共约6.5亿张图像)中采样 。 在训练解码器、上采样器和之前的模型时 , 他们只使用了DALL-E数据集(大约2.5亿张图像) , 因为在训练生成堆栈时合并了噪声更大的CLIP数据集 , 从而在初始评估中对样本质量产生了负面影响 。
模型总大小似乎是:632M?参数(CLIPViT-H/16图像编码器)+340M?(CLIP文本编码器)+1B(扩散先验)+3.5B(扩散解码器)+1B(两个扩散上采样器)=~大约6.5B参数(如果我没记错的话) 。
这个方法允许基于文本描述生成图像 。 然而 , 其他一些有趣的应用也是可能的 。
文章图片
原论文中的示例 。
每个图像x可以被编码成一个二分latent表示(z_i,x_T) , 这足以让解码器产生准确的重建 。 latentz_i是一个CLIP图像嵌入 , 它描述了CLIP识别的图像方面 。 latentx_T是通过使用解码器对x应用DDIM(去噪扩散隐式模型)反演获得的 , 同时以z_i为条件 。 换句话说 , 它是在生成图像x(或等效为x_0 , 参见GLIDE部分中的去噪扩散模型方案)时扩散过程的起始噪声 。
这种二分表示可以实现三种有趣的操作 。
首先 , 你可以通过在解码器中使用η>0的DDIM进行采样 , 为给定的二分潜在表示(z_i,x_T)创建图像变体 。 当η=0时 , 解码器变得具有确定性 , 并将重建给定的图像x 。 η参数越大 , 变化越大 , 我们可以看到在CLIP图像嵌入中捕获了哪些信息并呈现在所有样本中 。
- 文本转语音、OCR识别、翻译,大厂付费还好用的文字转语音工具
- 太魔幻了!DALL·E 2 居然能用自创的语言来生成图像,AI模型的可解释性再一次暴露短板
- 今晚19:30|荣耀70系列发布:全球首发imx800图像传感器
- Excel 中的文本数字,必须按数值的规则排序?是不是有点强人所难
- 新智元报道编辑:袁榭 拉燕新智元导读2022年5月26日|Nature重磅!在机器人骨架上首次生成人类肌腱细胞
- 小米12|小米 12S 图像实时泄漏,揭示徕卡品牌
- 逼真度超越「AI设计师」DALL·E 2!谷歌大脑推出新的文本生成图像模型——Imagen
- 小米科技|小米手环 7 NFC 规格通过零售包装盒图像浮现
- 荣耀|IMX800+荣耀图像引擎,AI加持荣耀70打造轻薄影像旗舰
- 炸场!DeepMind通用人工智能新突破:一套权重通吃视觉文本和决策