逼真度超越「AI设计师」DALL·E 2！谷歌大脑推出新的文本生成图像模型——Imagen 作者｜李梅、王玥编辑

文章图片
作者｜李梅、王玥
编辑｜陈彩娴文本生成图像模型界又出新手笔！
这次的主角是GoogleBrain推出的Imagen ，再一次突破人类想象力，将文本生成图像的逼真度和语言理解提高到了前所未有的新高度！比前段时间OpeAI家的DALL·E2更强！
话不多说，我们来欣赏这位AI画师的杰作～
Abrainridingarocketshipheadingtowardsthemoon.（一颗大脑乘着火箭飞向月球。）
文章图片
Adragonfruitwearingkaratebeltinthesnow.（在雪地里戴着空手道腰带的火龙果）
文章图片
AmarblestatueofaKoalaDJinfrontofamarblestatueofaturntable.TheKoalahaswearinglargemarbleheadphones.（一只带着巨大耳机的考拉DJ的大理石雕像站在一个大理石转盘前。）
文章图片
AnartgallerydisplayingMonetpaintings.Theartgalleryisflooded.Robotsaregoingaroundtheartgalleryusingpaddleboards.（陈列莫奈画作的美术馆被水淹没。机器人正在使用桨板在美术馆里划行。）
文章图片
Agiantcobrasnakeonafarm.Thesnakeismadeoutofcorn（农场里有一条巨大的玉米构成的眼镜蛇。）
文章图片
TeddybearsswimmingattheOlympics400mButterflyevent.（泰迪熊在奥运会400米蝶泳项目中游泳。）
文章图片
以及更多......

文章图片

文章图片
给出同样的文本提示， Imagen还可以生成不同类别的图像。比如下面这些图中，各组图片在物品的颜色、空间位置、材质等范畴上都不太相同。

文章图片
1Imagen的工作原理
文章图片
论文地址：https://gweb-research-imagen.appspot.com/paper.pdf
Imagen的可视化流程Imagen基于大型transformer语言模型在理解文本方面的能力和扩散模型在高保真图像生成方面的能力。
在用户输入文本要求后，如“一只戴着蓝色格子贝雷帽和红色波点高领毛衣的金毛犬” ， Imagen先是使用一个大的冻结（frozen）T5-XXL编码器将这段输入文本编码为嵌入。然后条件扩散模型将文本嵌入映射到64×64的图像中。
Imagen进一步利用文本条件超分辨率扩散模型对64×64的图像进行升采样为256×256 ，再从256×256升到1024×1024 。结果表明，带噪声调节增强的级联扩散模型在逐步生成高保真图像方面效果很好。

文章图片
图注：输入“一只戴着蓝色格子贝雷帽和红色波点高领毛衣的金毛犬”后Imagen的动作

文章图片
图注：64×64生成图像的超分辨率变化。对于生成的64×64图像，将两种超分辨率模型分别置于不同的提示下，产生不同的上采样变化
大型预训练语言模型×级联扩散模型Imagen使用在纯文本语料中进行预训练的通用大型语言模型(例如T5) ，它能够非常有效地将文本合成图像：在Imagen中增加语言模型的大小，而不是增加图像扩散模型的大小，可以大大地提高样本保真度和图像-文本对齐。