技术壁垒这么多,AIGC 凭什么爆火?( 三 )


可控性GAN模型的问世刺激了一波图像生成 , 自然有人想到在GAN上做文章 , 使之能够完成「文生图」的幻想级任务 。
然而 , 想通过文本这样的抽象语义去控制GAN的生成是个大难题 , GAN难以按照用户描述去可控地生成画面 。 圈内先行者尝试基于GAN做文生图的技术如StackGAN、AttnGAN等 , 都出现了描述文本细节缺失、分辨率低、难以理解高层次语义信息等问题 , 生成质量较低 。
而让AIGC爆火的两大功臣:Diffusion+CLIP , 却解决了这个问题 。
Diffusion模型本身是为DALL·E2、Imagen等知名绘图神器所青睐的生成方式 , 不像GAN模型除了需要训练生成器 , 还需要额外训练判别器 , Diffusion模型只需要训练生成器 , 训练大大简化 。 同时 , Diffusion模型通过多步生成图片 , 且每一步都是一个自编码器 , 监督信息非常强 , 所以训练要稳定得多 。
技术壁垒这么多,AIGC 凭什么爆火?
文章图片
图注:Diffusion模型生成过程
在如此强大的生成模型上 , 研究人员又为其嫁接上负责图文匹配验证的CLIP模型 。 当Diffusion生成图片后 , 交由CLIP验证图像特征值是否和输入文字匹配 。 如果特征值能通过匹配验证 , 就说明生成图像符合文字描述 , 也就是达成了「输入一段文字 , 输出符合要求的图片」的目标 。
是Diffusion+CLIP让文字可控生成的梦想照进现实 , 做到了GAN未曾完成的事 。
从此 , 人类终于可以通过文字与AI交流 , 征服AI , 让AI真正为人所用 。
多模态AIGC爆火的机缘 , 还与语言大模型的兴起息息相关 。
2020年左右 , GPT-3等语言大模型声名鹊起 , 为AI系统在处理跨模态中提供了海量优秀的文本-图像对的训练数据 。 正是这些高质量的训练数据为AIGC产品打好了基础 , 既帮助模型变大 , 又让模型不断学习并加深文本与图像匹配的认知 。 而这是在GAN初问世时不具备的外部条件 。
通过文字画出绚烂图画 , 已然突破常人的想象 , 但仍有先行者思考 , 跨模态就是AIGC的尽头了吗?
想来不是 。 目前选择文本来生成图像 , 是因为文本现存数据最多 , 但世上存在如此多的模态 , 如果只用文本去做生成 , 那未免太局限了 。
用手绘线条生成图像 , 用草稿加上文字生成图像 , 甚至是走向3D模态……AIGC的未来一定能兼容更多模态 , 而每一种不同的模态可以作为不同尺度的信息指导 , 便于灵活地生成更多有需求的任务 。
AIGC还需要攻破什么技术壁垒?图片水平有AI图像生成产品经理认为 , 国内的AI图像生成产品离真正走下去有不小差距 , 其中最本质的原因 , 当属生成细节不够好 , 达不到商业水平 。
要知道图像生成翘楚Midjourney正是大量收集用户反馈的生成缺点 , 如手部奇怪、头发生成不佳等问题 , 按照用户反馈去调节训练数据 , 进行高频率优化 , 不断打磨生成效果 , 才得到了圈内几乎最佳的图片质量 。
而AIGC产品一开始的定位 , 就决定了生成模型的结构设计和模型的优化方向:
国内的盗梦师平台出于别具匠心的产品设计 , 侧重于生成幻想风格的画面 。 如果选择生成真实风格图像 , 用户难免会带着挑刺的心理去比较生成图片跟真实世界的差距、但如果是玄幻、动漫等“二次元”风格 , 用户则会保持相对宽容的心态 , 倾向于欣赏图片美感 。
技术壁垒这么多,AIGC 凭什么爆火?
文章图片
图注:盗梦师生成作品
而ZMO公司从一开始就选择了真实图像的赛道 , 这是因为ZMO团队认为真实图像的生成才能真正影响一个具体的行业 , 如建筑绘图、电商图片、网页设计、商品外包装设计等等 。 如果AIGC产品的水平足够革新这些具体行业的内容生产方式 , 完全用AI代替人力完成这些工作 , 其产生的行业效益将不可估量 。