文本生成图像这么火，你需要了解这些技术的演变( 七 ) 选自Intento作者：GrigorySapunov机

文章图片
探索图像的变化。
其次，你可以在图像x1和x2之间进行插值。为此，你必须采用CLIP图像嵌入z_i1和z_i2 ，然后应用slerp（球面线性插值）来获得中间CLIP图像表示。对应的中间DDIMlatentx_Ti有两个选项：1）使用slerp在x_T1和x_T2之间进行插值， 2）将DDIMlatent固定为轨迹中所有插值的随机采样值（可以生成无限数量的轨迹）。以下图像是使用第二个选项生成的。

文章图片
探索两个图像的插值。
最后，第三件事是语言引导的图像操作或文本差异。为了修改图像以反映新的文本描述y ，你首先获取其CLIP文本嵌入z_t ，以及描述当前图像的标题的CLIP文本嵌入z_t0（可能是像「照片」这样的虚拟标题或一个空的标题）。然后计算文本差异向量z_d=norm(z_t-z_t0) 。然后使用slerp在嵌入z_i的图像CLIP和文本差异向量z_d之间旋转，并在整个轨迹中生成具有固定基本DDIM噪声x_T的图像。

文章图片
探索文本差异，来自原文中。
作者还进行了一系列实验来探索CLIP潜在空间。先前的研究表明， CLIP容易受到印刷攻击。在这些攻击中，一段文本覆盖在一个对象的顶部，这导致CLIP预测文本描述的对象而不是图像中描述的对象（还记得带有“iPod”横幅的苹果吗？）。现在，作者尝试生成此类图像的变体，发现尽管图像正确分类的概率非常低，但生成的变体以很高的概率是正确的。尽管该标题的相对预测概率非常高，但该模型从未生成iPod的图片。

文章图片
印刷攻击案例。
另一个有趣的实验是用越来越多的主成分重建图像。在下图中，他们获取了少量源图像的CLIP图像嵌入，并以逐渐增加的PCA维度重建它们，然后使用带有DDIM的解码器将重建的图像嵌入可视化。这允许查看不同维度编码的语义信息。

文章图片
越来越多的主成分，来自原始论文。
还要记住unCLIP在属性绑定、文本生成和复杂场景中的细节方面遇到的困难。
前两个问题可能是由于CLIP嵌入属性。
可能会出现属性绑定问题，因为CLIP嵌入本身并没有将属性显式绑定到对象，因此解码器在生成图像时会混淆属性和对象。

文章图片
另一组针对难绑定问题的重构，来自原文。
文本生成问题可能是因为CLIP嵌入没有精确编码渲染文本的拼写信息。
由于解码器层次结构以64×64的基本分辨率生成图像然后对其进行上采样，可能会出现低细节问题。因此，使用更高的基本分辨率，问题可能会消失（以额外的训练和推理计算为代价）。
我们已经看到了OpenAI基于文本的图像生成模型的演变。也有其他公司在这个领域展开工作。

文章图片
DALL·E2（或unCLIP）是对系统的第一个版本DALL·E1的巨大改进，仅用了一年时间。不过，它还有很大的提升空间。
遗憾的是，这些强大而有趣的模型一直未开源。作者希望看到更多这样的模型被发布或至少通过API提供。否则，所有这些成果都只能适用于一些非常有限的受众。