逼真度超越「AI设计师」DALL·E 2!谷歌大脑推出新的文本生成图像模型——Imagen( 二 )


Imagen的研究突出体现在:
逼真度超越「AI设计师」DALL·E 2!谷歌大脑推出新的文本生成图像模型——Imagen】大型预训练冻结文本编码器对于文本到图像的任务来说非常有效;
缩放预训练的文本编码器大小比缩放扩散模型大小更重要;
引入一种新的阈值扩散采样器 , 这种采样器可以使用非常大的无分类器指导权重;
引入一种新的高效U-Net架构 , 这种架构具有更高的计算效率、更高的内存效率和更快的收敛速度;
Imagen在COCO数据集上获得了最先进的FID分数7.27 , 而没有对COCO进行任何训练 , 人类评分者发现 , Imagen样本在图像-文本对齐方面与COCO数据本身不相上下 。
逼真度超越「AI设计师」DALL·E 2!谷歌大脑推出新的文本生成图像模型——Imagen
文章图片
2引入新基准DrawBench为了更深入地评估文本到图像模型 , GoogleBrain引入了DrawBench , 这是一个全面的、具有挑战性的文本到图像模型基准 。 通过DrawBench , 他们比较了Imagen与VQ-GAN+CLIP、LatentDiffusionModels和DALL-E2等其他方法 , 发现人类评分者在比较中更喜欢Imagen而不是其他模型 , 无论是在样本质量上还是在图像-文本对齐方面 。
并排人类评估;
对语意合成性、基数性、空间关系、长文本、生词和具有挑战性的提示几方面提出了系统化的考验;
由于图像-文本对齐和图像保真度的优势 , 相对于其他方法 , 用户强烈倾向于使用Imagen 。
逼真度超越「AI设计师」DALL·E 2!谷歌大脑推出新的文本生成图像模型——Imagen
文章图片
图注:Imagen与DALL-E2、GLIDE、VQ-GAN+CLIP和LatentDiffusionModels在DrawBench上的比较:用户对图像-文本对齐和图像逼真度的偏好率(95%置信区间)
Imagen与DALL-E2生成图像的比较示例:
逼真度超越「AI设计师」DALL·E 2!谷歌大脑推出新的文本生成图像模型——Imagen
文章图片
图注:“外星人绑架奶牛 , 将其吸入空中盘旋”(上);“一个被猫绊倒的希腊男性的雕塑”(下)
对于涉及颜色的文本提示 , Imagen生成的图像也比DALL-E2更优 。 DALL-E2通常很难为目标图像分配正确的颜色 , 尤其是当文本提示中包含多个对象的颜色提示时 , DALL-E2会容易将其混淆 。
逼真度超越「AI设计师」DALL·E 2!谷歌大脑推出新的文本生成图像模型——Imagen
文章图片
图注:Imagen和DALL-E2从颜色类文本生成图像的比较 。 “一本黄色书籍和一个红花瓶”(上);“一个黑色苹果和一个绿色双肩包”(下)
而在带引号文本的提示方面 , Imagen生成图像的能力也明显优于DALL-E2 。
逼真度超越「AI设计师」DALL·E 2!谷歌大脑推出新的文本生成图像模型——Imagen
文章图片
图注:Imagen和DALL-E2从带引号文本生成图像的比较 。 “纽约天际线 , 天上有烟花写成的“HelloWorld”字样”(上);“一间写着TimetoImage的店面”(下)
3打开了潘多拉魔盒?像Imagen这样从文本生成图像的研究面临着一系列伦理挑战 。
首先 , 文本-图像模型的下游应用多种多样 , 可能会从多方面对社会造成影响 。 Imagen以及一切从文本生成图像的系统都有可能被误用的潜在风险 , 因此社会要求开发方提供负责任的开源代码和演示 。 基于以上原因 , Google决定暂时不发布代码或进行公开演示 。 而在未来的工作中 , Google将探索一个负责任的外部化框架 , 从而将各类潜在风险最小化 。
其次 , 文本到图像模型对数据的要求导致研究人员严重依赖于大型的、大部分未经整理的、网络抓取的数据集 。 虽然近年来这种方法使算法快速进步 , 但这种性质的数据集往往会夹带社会刻板印象、压迫性观点、对边缘群体有所贬损等“有毒”信息 。