glide|首尾相接？比DALL·E更真，这个GLIDE更苗条了中国一汽|robotaxi|小马智行|一汽

人工智能的发展，简直和我们人类不能同日而语。就好比我们辛辛苦苦折腾一年，现在回顾2021年年初，可能觉得自己没啥变化，虽然经历了疫情、灾难或一些坎坎坷坷，也许成熟了点，经历了一年的事，又长大一岁。不过大概率会和年初一样，还是那个穷样，还是那么平淡，似乎生活就是一日复一日，没死没灾即为平安，没啥惊天动地地改变。而对于AI而言，则可能已经偷天换日、更新换代、时异事殊、今非昔比了。比如，今年年初惊动四座的DALL·E，甫一出现就引发关注，可谓开局得胜喧嚣一时。

而今，一不小心就又到年底了。这一年也匆匆快要结束了。而马不停蹄的人工智能领域，依然还有成果推出。没错，和DALL·E有关，就是OpenAI刚刚推出了一个新的文本生成图像模型，名叫GLIDE。一个年初，一个年尾，简直是首尾相连无缝衔接啊。

文章插图

和年初老爸那一代120亿参数膘肥体壮的体型不同的是，GLIDE只有35亿参数。然而，长江后浪推前浪，GLIDE显然不可能毫无进步，相反，机智客看它的表现感觉，它进步的还可以，能生成的图像显得更为逼真更为符合逻辑。

符合逻辑这个词用得好，用得妙，简直可以说好得呱呱叫。因为，它居然仿佛真有和我们人类类似的对物理世界的认知逻辑意义一样，比如你让它画出八条腿的猫，它都懒得理会你的命令要求，好像觉得不合理一样“自作主张”生成符合客观规律的画。

据了解，GLIDE全称Guided Language to Image Diffusion for Generation and Editing，是一种扩散模型（diffusion model）。这个2015年才提出的模型，被证明在图像生成方面有很大的潜力，尤其是与引导结合来兼得保真度和多样性。而此次，OpenAI用了这个模型技术，展示了扩散模型的能力，秀了把肌肉。也有开源项目公开，机智客看了下， README.md比较简单，除了简单介绍外，介绍了安装方法了。有关详细的用法示例，需要参阅笔记本目录。 text2im笔记本演示了如何使用无分类器引导的GLIDE（过滤）生成以文本提示为条件的图像。 inpaint笔记本显示了如何使用GLIDE（过滤）填充图像的遮罩区域，并以文本提示为条件。 clip_-guided笔记本演示了如何使用GLIDE（过滤）+过滤噪音感知剪辑模型生成基于文本提示的图像。当然关于具体的技术参数和背景知识介绍，大家可以看论文专业介绍，这里不多介绍了。
【 glide|首尾相接？比DALL·E更真，这个GLIDE更苗条了】