英伟达|英伟达又一次突破想象力：一句话实时P图在线试玩( 二 ) 英伟达又一次突破想象力：一

文章图片

这几种玩法叠加在一起，简直让网友们脑洞大开。
像外媒ZDNet就恶搞出来了一种神奇的玩法，在已有的风景上画个人头：

文章图片

然后让GauGAN2根据已有的画面，再重新生成图画，就会得到如下“人头海岛”的神奇景观：

文章图片

不过这可能也对个人画技有所要求，在我们的灵魂画风下，效果看上去就有些……不太聪明的亚子。

文章图片

那么，生成这一系列风景照的GauGAN2，背后究竟用了什么原理？
它与OpenAI今年发布的DALL·E和CLIP，又究竟有什么区别？
与DALL·E有什么不同？
2019年，英伟达GauGAN2的“前身”GauGAN正式开源。
当时的它，还只拥有其中一个能力，就是将涂鸦直接变成风景画，就像「神笔马良」一样，还推出了对应的软件Canvas：

文章图片

当然，这时GauGAN已经能随意改变画面风格了，从白天黑夜到春夏秋冬的气质都能稳稳“拿捏”：

文章图片

据英伟达介绍，GauGAN采用了一种基于空间适应标准化（SPADE）算法。
SPADE算法不仅使用随机的输入图像，还采用了一种被称作“分割图”的图像。在分割图中，每一个像素都会被归类，来生成更接近于真实的图像，这种模式被称作“图对图翻译” 。

文章图片

△GauGAN的技能点（狗头）
现在，英伟达将GauGAN升级成了GauGAN2，后者一共采用了1000万张高质量的图片、在英伟达Selene超算上进行训练，这台超算在Green500排行榜上排到世界第二。
生成这些风景画的效果和“手法”，是不是感觉有点熟悉？
没错，大多数人看到GauGAN2的第一眼，可能都会觉得它和OpenAI的DALL·E+CLIP有点像。
今年年初，OpenAI用DALL·E和CLIP两个模型，做了个“图像版”GPT-3，同样能用一句话生成图片。

文章图片

不过，这两个模型生成的内容其实不太一样。
GauGAN2专注于生成风景照，DALL·E+CLIP则更多地生成具体的物体，例如一把椅子或者一个闹钟等。

文章图片

这与它们的原理差异也有关系，GauGAN2更加注重“单词与视觉效果”之间的关系，例如“冬天”这种模糊的状态词给照片带来的效果；DALL·E+CLIP则更注重“文字-图像”这种有明确对应关系的物体效果。
据英伟达介绍，GauGAN2不同于“文本-图像”和“分割图像-图像”一类的模型，它所能产生的照片种类更多，质量也会更高。

英伟达|英伟达又一次突破想象力：一句话实时P图 在线试玩( 二 )

英伟达|英伟达又一次突破想象力：一句话实时P图在线试玩( 二 )