文本生成图像这么火,你需要了解这些技术的演变( 七 )


文本生成图像这么火,你需要了解这些技术的演变
文章图片
探索图像的变化 。
其次 , 你可以在图像x1和x2之间进行插值 。 为此 , 你必须采用CLIP图像嵌入z_i1和z_i2 , 然后应用slerp(球面线性插值)来获得中间CLIP图像表示 。 对应的中间DDIMlatentx_Ti有两个选项:1)使用slerp在x_T1和x_T2之间进行插值 , 2)将DDIMlatent固定为轨迹中所有插值的随机采样值(可以生成无限数量的轨迹) 。 以下图像是使用第二个选项生成的 。
文本生成图像这么火,你需要了解这些技术的演变
文章图片
探索两个图像的插值 。
最后 , 第三件事是语言引导的图像操作或文本差异 。 为了修改图像以反映新的文本描述y , 你首先获取其CLIP文本嵌入z_t , 以及描述当前图像的标题的CLIP文本嵌入z_t0(可能是像「照片」这样的虚拟标题或一个空的标题) 。 然后计算文本差异向量z_d=norm(z_t-z_t0) 。 然后使用slerp在嵌入z_i的图像CLIP和文本差异向量z_d之间旋转 , 并在整个轨迹中生成具有固定基本DDIM噪声x_T的图像 。
文本生成图像这么火,你需要了解这些技术的演变
文章图片
探索文本差异 , 来自原文中 。
作者还进行了一系列实验来探索CLIP潜在空间 。 先前的研究表明 , CLIP容易受到印刷攻击 。 在这些攻击中 , 一段文本覆盖在一个对象的顶部 , 这导致CLIP预测文本描述的对象而不是图像中描述的对象(还记得带有“iPod”横幅的苹果吗?) 。 现在 , 作者尝试生成此类图像的变体 , 发现尽管图像正确分类的概率非常低 , 但生成的变体以很高的概率是正确的 。 尽管该标题的相对预测概率非常高 , 但该模型从未生成iPod的图片 。
文本生成图像这么火,你需要了解这些技术的演变
文章图片
印刷攻击案例 。
另一个有趣的实验是用越来越多的主成分重建图像 。 在下图中 , 他们获取了少量源图像的CLIP图像嵌入 , 并以逐渐增加的PCA维度重建它们 , 然后使用带有DDIM的解码器将重建的图像嵌入可视化 。 这允许查看不同维度编码的语义信息 。
文本生成图像这么火,你需要了解这些技术的演变
文章图片
越来越多的主成分 , 来自原始论文 。
还要记住unCLIP在属性绑定、文本生成和复杂场景中的细节方面遇到的困难 。
前两个问题可能是由于CLIP嵌入属性 。
可能会出现属性绑定问题 , 因为CLIP嵌入本身并没有将属性显式绑定到对象 , 因此解码器在生成图像时会混淆属性和对象 。
文本生成图像这么火,你需要了解这些技术的演变
文章图片
另一组针对难绑定问题的重构 , 来自原文 。
文本生成问题可能是因为CLIP嵌入没有精确编码渲染文本的拼写信息 。
由于解码器层次结构以64×64的基本分辨率生成图像然后对其进行上采样 , 可能会出现低细节问题 。 因此 , 使用更高的基本分辨率 , 问题可能会消失(以额外的训练和推理计算为代价) 。
我们已经看到了OpenAI基于文本的图像生成模型的演变 。 也有其他公司在这个领域展开工作 。
文本生成图像这么火,你需要了解这些技术的演变
文章图片
DALL·E2(或unCLIP)是对系统的第一个版本DALL·E1的巨大改进 , 仅用了一年时间 。 不过 , 它还有很大的提升空间 。
遗憾的是 , 这些强大而有趣的模型一直未开源 。 作者希望看到更多这样的模型被发布或至少通过API提供 。 否则 , 所有这些成果都只能适用于一些非常有限的受众 。