图像|打破GANs“垄断”｜OpenAI新研究：Diffusion Models 图文转换效果超越DALL-E( 二 )

已有的最新文本条件图像模型已经可以做到根据格式多样的文本中合成图像，甚至可以“理解”语义，按照合理的逻辑组合毫不相关的客体。但在捕捉相应文本并生成逼真图像方面，还略逊一筹。
毋庸置疑，扩散模型是前景大为可观的生成模型系列，在诸多图像生成任务上达到了最先进的样本质量基准。
为了在类条件设置中实现真实感，作者们利用分类器指导增强扩散模型，扩散模型以分类器的标签作为条件。分类器首先在有噪声的图像上进行训练，在扩散采样过程中，使用分类器提供的梯度引导样本朝向标签。Salimans等人曾通过使用无分类器的指导，未单独训练的分类器中获得了类似结果，这给研究者们带来了灵感，在有标签扩散模型和无标签扩散模型的预测之间进行插值。
受引导扩散模型生成逼真样本的能力以及文本到图像模型处理自由形式提示的能力的启发，研究人员将引导扩散应用于文本条件图像合成问题。首先，作者们训练了一个 35 亿参数扩散模型，该模型使用文本编码器以自然语言描述为条件。接下来，他们比较了两种将扩散模型引导至文本提示的技术：CLIP 引导和无分类器引导。使用人工和自动评估，发现无分类器的指导产生更高质量的图像。
研究人员发现GLIDE模型中，无分类器指导生成的样本栩栩如生，图像还蕴涵着广泛的世界知识。由人类参与者评估后，普遍给出评价：GLIDE“创造”的效果优于 DALL-E。

文章插图

扩散模型的潜力

在论文《Diffusion Models Beat GANs on Image Synthesis》中，研究人员通过一系列的消融实验，以找到更好的扩散模型架构，实现无条件的图像合成。对于条件图像合成，则使用分类器指导（利用分类器的梯度以来权衡样本质量-多样性）进一步提高了样本质量。
论文的作者们分别在ImageNet 128×128上达到2.97的FID，在ImageNet 256×256上达到4.59的FID，在ImageNet512×512上达到7.72的FID，并且即使每个样本只有25次正向传递，其生成图像质量依然可以匹配BigGAN-deep，同时保持了更好的分布覆盖率（多样性）。
最后，作者团队发现分类器指导与上采样扩散模型可以很好地结合在一起，从而将ImageNet512×512上的FID进一步降低到3.85。
DeepMind曾于2018年在一篇 ICLR 2019 论文中提出了BigGAN，当时一经发表就引起了大量关注，很多学者都不敢相信AI竟能生成如此高质量的图像，这些生成图像的目标和背景都相当逼真，边界也很自然。

图像|打破GANs“垄断”｜OpenAI新研究：Diffusion Models 图文转换效果超越DALL-E

文章插图

由BigGAN模型生成的512x512分辨率图像
如今，Alex Nichol和Prafulla Dhariwal两位学者提出的扩散模型，终于可在图像合成上匹敌BigGAN。

文章插图

从最佳ImageNet512×512模型（FID3.85）中选择的样本
扩散模型是一类基于似然度的模型，最近被证明可用于生成高质量图像，同时保留理想的属性，如更高的分布覆盖率、稳定的训练目标和更好的可扩展性。这些模型通过逐步去除信号中的噪声来生成样本，其训练目标可以表示为一个重新加权的变分下界。
Nichol和Dhariwal发现，随着计算量的增加，这些模型不断改进，即使在高难度ImageNet256×256数据集上也能生成高质量的样本。
再来看看GLIDE的生成效果。下图是GLIDE基于不同的文本提示生成的16个图像集，例如“使用计算器的刺猬”、“戴着红色领带和紫色帽子的柯基”等等，如图所示，生成的图像基本符合文本描述。