技术壁垒这么多,AIGC 凭什么爆火?( 二 )


况且 , 让AI画图的工作早已出现不少 , 其中有开辟之功的莫过于2014年问世的对抗生成网络GAN(GenerativeAdverserialNetwork) 。
GAN模型利用现成样本来生成新图像 , 最为人知的是其生成人脸的能力 , 喂入大量人脸数据 , GAN便可生成真假难辨的人脸图片 。
GAN模型的现世激发了大量研究人员的灵感 , 纷纷下场打造各种基于GAN的生成技术:能够合成高保真图片的BigGAN , 能够将卫星图像转化成谷歌地图的pix2pix技术、能将艺术画作和照片互相转化的CycleGAN……除了图片生成技术 , 抖音、快手等短视频平台中层出不穷的「变老特效」、「假笑特效」、「让老照片动起来」等视频特效的背后 , 其实也都是GAN在发挥妙用 。
GAN模型的出现明明推动了AI绘画的一大步 , 却并没有卷起AIGC风潮 。 而当AIGC再出现 , 已经贵为2022年度最热词汇……这让人不由得疑惑:AIGC到底做对了什么 , 才让自己成功翻红?
从未离商业化如此近AIGC概念的爆火 , 源于其前所未有的技术成熟度 。 而AIGC摆脱过去桎梏的图像生成 , 走向商业化的成熟路线 , 正是由于这几个机缘:
大模型当「一句话AI绘图神器」走红 , 世人皆以为重点在「AI绘图」上 , 可实际上 , 工作重点应在于如何理解用户输入的那一句话 。
理解语言 , 恰恰是大模型玄学般的能力之一 。 当DALL·E2初推出时 , 便出了这么一个惊艳的案例:
当用户要求在人物画上生成柯基时 , DALL·E2会把柯基画入画中;
技术壁垒这么多,AIGC 凭什么爆火?
文章图片
而当用户要求在座位上生成柯基的时候 , 它便生成了一只真实的、三次元的柯基 。
技术壁垒这么多,AIGC 凭什么爆火?
文章图片
这一操作惊呆了当时关注DALL·E2的网友 , 这一选择性的动作 , 说明DALL·E2确实理解了什么!
而这种非人之身理解人言的超强能力 , 要归功于DALLE·2所基于的GPT-3——由于喂入的数据多 , 语言大模型GPT-3已经开始理解一些人类的常识 。 无论是3D还是2D的图像 , 就算画面再精美 , 仍然处于像素级别的较低水平创作;而GPT-3表现出对人类语言这种高水平产物的理解 , 这是在模型中极其罕见的能力 。
不断涌现的各类例子都证明:模型越大 , 理解能力越强 。 可是GAN本身的结构设计及其生成逻辑 , 恰恰阻碍了模型不断变大 , 这与AIGC的发展需求相悖;反观Diffusion模型 , 其已经具备了大模型的特征:由简单元素构成 , 通过不停重复造出一个超大网络 , 且可训练稳定 。 这正符合AIGC对于大模型的需求 。
同时 , 在生成方面 , AIGC已不局限于仅仅生成人脸或任何特定的某种图像 。 通过组合概念、元素生成更复杂的场景 , 走向「一个工具生成所有」的通用方向 , 这才是图像生成的未来 。
而GAN需要一个特定的数据集进行学习 。 如要求生成人脸 , 就需要喂入人脸图像数据集 , 拓展生成其他图像的能力就稍弱 。 这就使得GAN不能成为通用的生成工具 , 想做一个特定功能的特效 , 就要为之训练专用的GAN , 而不能实现泛化使用 。
研究人员们发现了大模型才是AIGC的正道 , GAN却和大模型之路存在多个相悖之处 , 这导致GAN只预热了图像生成 , 却从未敲开AIGC的大门 。
美国物理学家费曼说过 , 「凡我不能创造的 , 我就还没有理解」 , AIGC不仅仅是生成 , 更被定义为建立在认知和理解基础上的创作 , 这正需要大模型的语言理解能力 。
大模型 , 是AIGC的来处 , 更是AIGC的未来发展之方向 。