wenet|GPT-3 出圈一年后,中国公司跟进了吗?

wenet|GPT-3 出圈一年后,中国公司跟进了吗?
文章插图
去年 10 月,专注开发语言智能的出门问问立项开始做中文版 GPT-3,参数量为百亿量级。但这个时候,业内已经有万亿模型发布。
去年人工智能领域最「出圈」的科研成果是 GPT-3,这个由 OpenAI 开发的自然语言处理模型,身上有着太多话题点。
GPT-3 模型达到千亿级参数;一个语言模型却还能算术、编程,相比专用 AI,GPT-3 更「通用」;这样「一位科科都是高分的全才」,在学习过程中居然是无监督、完全自主驱动的;以及,它猛灌数据量的极端做法,系统有上万个 CPU/GPU 在 24 小时不间断地吞食互联网文本,运算一次要花 450 万美元。
wenet|GPT-3 出圈一年后,中国公司跟进了吗?
文章插图
就这样,AlphaGo 之后的又一座里程碑立起来了。中国公司也开始了「做自己的 GPT-3」的探索。去年 10 月,专注开发语言智能的出门问问立项开始做 UCLAI——用中文语料训练的中文版 GPT-3,参数量为百亿量级。但这个时候,业内已经有万亿模型发布,超越里程碑才能发出声量,那出门问问为什么还要复制一个「缩小版」的 GPT-3?
而且,他们基于这个语言模型开发了一个可以实现文言文和白话文互译的小程序「古文宝」;并开源一个极大简化语音识别训练流程的端到端的深度学习模型 WeNet。这让我们对出门问问如何思考 AI 趋势和商业化产生了好奇。
GPT-3 是极端产物,但我们要实用「说实话去年 5 月 GPT-3 的论文出来时,我感觉就是一帮『土豪』用大量的金钱、数据、计算资源堆起来的产物。」出门问问的工程师林士翔告诉极客公园,「我们眼睛亮了。OpenAI 后来开放了他们的 API,开发者们开始用它做出各种应用。过去从来没有任何一个模型,可以只给少数的任务相关的训练样例,就能快速将模型适配成具备执行该任务的能力,真的是大力出奇迹。」
几乎是同一时间,这家公司开始研究 GPT-3 的算法。「主要还是因为我们不像巨头那样有那么大的可用算力资源支撑模型训练,」林士翔坦白的同时,也提出了自己的质疑,「目前市场上除了 GPT-3 外,其他号称千亿甚至是万亿参数模型所采用的方法比较取巧,他们利用多专家模型(MoE),以横向扩展的方式将多个小模型组在一起,堆叠成一超大模型。他们看起来很大很厉害,但模型参数没被有效利用,会不会是『虚胖』?」
也因此,他们打算先走一遍难走的路:先不追求极端的模型参数量,先参照 GPT-3 实打实地用超大规模分布式计算,再解决各种数据并行与模型并行等复杂问题。
去年 8 月,出门问问的创始人兼 CEO 李志飞告诉极客公园,猛灌数据、烧钱耗力的 GPT-3「不全是」巨头的游戏,「很多模型或算法的难点在于没有实现前,我们不知道行不行。在 OpenAI 证明 GPT-3 可行性之后,创业公司可以开始用 GPT-3 的 API 去进一步验证他们的强项和弱项。」
于是,他们「复制」了 GPT-3 的实现路径,做出了中文语言通用平台——UCLAI。「很多系统第一次做出来的时候特别难,但是很快就有特别多的优化,这个成本大幅度降低,你就可以做出同样甚至更好的系统。」李志飞说道。问及投入成本,项目负责人回答 UCLAI 大概投入 10 人规模团队,时间半年。
从去年立项打造 UCLAI 开始,出门问问一开始照着 GPT-3 的论文描述,一成不变地去复现模型,借由大量的实验,进一步了解模型的内在相关运作机制和表现,以及洞察为什么小样本学习能够运作还有模型结构上有什么局限性。
接着,改造开始了。团队开始着手修改他们的「GPT-3」,如中文专用词典、双向上下文建模、稀疏注意力机制等。