最近|从imagen到parti，谷歌又整了啥新活？( 二 ) 最近

文章图片
在3.5亿参数下，袋鼠的眼镜不是蓝色，而且PS痕迹明显，背景只体现出「草地」，悉尼歌剧院基本看不出来。举的牌子上更不知道是哪国文字。
到了7.5亿参数下，眼镜颜色和背景都和文字准确对上了，但却多了另一只带着蓝眼镜的袋鼠。
扩展到30亿参数，之前的袋鼠不见了，但举的牌子多了一块，上面的字仍有拼写错误，但大概能看出是「欢迎朋友」了。但背景中的悉尼歌剧院似乎开了「影分身」。
最终在200亿参数下，文字中的内容得到准确再现。
换一张图，也是如此。文本信息细节越少，体现的越明显。
比如文本是「小提琴的背面」这几个字：

文章图片
直到30亿参数下，生成的图像仍然是「小提琴的正面」，直到200亿参数下，才生成了正确的图像。
多面手「艺术家」，风格百搭
除了由模型参数量扩大带来的细节提升外，画画最要紧的是能画出不同风格，要都是千篇一律，那还叫艺术家吗？
Parti表示，这挺简单的。
比如命题作画：
一只浣熊穿正装，头戴礼帽，拄着拐杖，拿着个垃圾袋。
就能画出梵高风格的：

文章图片
埃及法老风格的：

文章图片
甚至是像素艺术风的：

文章图片
再比如下面的文字：
「一只老虎戴着列车长的帽子，手里拿着一块滑板，上面有一个阴阳符号。」
也可以画成油画风，真真的那种。

文章图片
或者版画风，酷酷的那种。

文章图片
甚至国画风，萌萌的那种。

文章图片
当然，也有翻车的时候。
比如下面这个作品，文字是「一个没有香蕉的盘子,旁边有一个没有橙汁的玻璃杯。」

文章图片
然而，生成的图片中盘子里全是香蕉，玻璃杯里也几乎盛满了橙汁！
就当是艺术家偶尔打了个盹吧！
看起来，以后「斗图界」说不定可以告别表情包了，想要什么图，打字就行了！
【最近|从imagen到parti，谷歌又整了啥新活？】早些年要是能有这样的神器，「美术课恐惧症」的小编可能也会免去不少不堪回首的回忆吧。