如果AIGC继续发展,你相信哪个世界?( 二 )


如果AIGC继续发展,你相信哪个世界?
文章图片
1750亿参数的GPT3曾一度是AI历史上最大的机器学习模型 , 相比于15亿参数量的GPT2 , GPT3参数量提高约117倍 , 预训练的数据量也从50GB提高到的570GB 。 2020年发布GPT3的时候 , OpenAI并没有将工作重点放在模型结构的创新上 , 反而是进行了大量工程化的工作 , 充分展示GPT3通过Zero-Shot、One-Shot和Few-Shots(即不需要额外数据进行微调 , 直接给出几个样例就可以让模型做出正确的生成)等Prompt方法完成多种NLP任务的通用性和泛化能力 。 通过释放出API接口供公众调用 , GPT-3的商业化也正式提上日程 。 GPT-3展示出惊人的效果后 , 一年后顶级实验室和科技大厂陆续发布自己的NLP预训练大模型 , 模型参数量呈现指数级别的增长 。
如果AIGC继续发展,你相信哪个世界?
文章图片
深度学习模型中参数数量的指数级增长
随后的一年内 , OpenAI进行了多次多模态的探索 , 其中最知名的是Text-to-image系列模型DALLE和DALLE2 。
OpenAI在2021年1月发布初代Text-to-Image模型DALL-E , 虽然相比于此前作画模型进展惊人 , 但效果并未让大众惊艳 , 因此只在学界引发了巨大的关注 。 2022年4月 , OpenAI再次发布第二代Text-to-Image模型DALL-E2 , 效果极好 , 但OpenAI仅用一篇未公布细节的论文展示其成果 , 并仅为审核通过的开发者提供接口试用 。 2022年8月 , 借鉴Dall-E2的思路 , StableDiffusion模型开源 , 至此 , AI图像生成开始爆发 。
如果AIGC继续发展,你相信哪个世界?
文章图片
DALLE、DALL-E2和其他开源模型的发布时间线与效果
时间轴图片来源:StateofAIReport2022,https://www.stateof.ai/
总结AI生成图像发展滞后于生成文本 , 但却在2022年下半年爆发的原因 , 我们不难发现如下规律 , 上一层级的AIGC往往依赖于下一层级的AIGC发展到一定程度 , 如Text-to-Image依赖于Text-to-Text本身的算法发展相对成熟 , 同理 , 我们推测Text-to-Video也需要依赖Text-to-Image和其他视频预测算法(如视频插帧)的发展成熟 , 因此 , 我们可以对不同复杂度的AIGC内容的进化路线得出以下推论:
如果AIGC继续发展,你相信哪个世界?
文章图片
AIGC中不同内容的进化路线
AIGC为何引起新一波热潮?如果分析新一波AIGC得到发展的原因 , 最直接的结论是因为大模型(如GPT-3、Dalle2、StableDiffusion等)带来了非常好的效果和泛化能力 。
其实从GPT-3出现之前 , 早在2018年3.4亿参数的Bert模型在当时已经算是巨无霸级别的存在 , 只是没有想到短短2年内 , 模型参数就提高到了GPT-3的1750亿 。 3.4亿参数的Bert将SQuAD1.1的F1得分提高到93.16分 , 超过人类的表现 , 并用屠榜的成绩赢得了多项NLP测试 。 但直到GPT-3的出现 , NLP模型才可以更好地完成NLG任务 , 并且对Few-shots的运用更加娴熟 。
大模型还展示出了强大的泛化能力 , GPT-3的API接口让下游的应用公司可以不需要迁移学习就直接将AI能力应用到自己的任务中 , API接口发布不到1年内就吸引了约300家公司调用其API , 也印证了在2021年8月斯坦福大学教授李飞飞等100多位学者联名发表的200多页的研究报告OntheOpportunitiesandRiskofFoundationModels中关于大模型(统一命名为FoundationModels)可以集中来自多种模态的所有数据的信息 , 并直接适用于多种下游任务的构想 。 借助GPT-3的API接口 , OpenAI也逐渐从独立的实验室走向大模型的基础设施公司 。
如果AIGC继续发展,你相信哪个世界?