泛化性|我们真的需要那么多“超大模型”吗?
文章插图
本文来自微信公众号:脑极体(ID:unity007),作者:燕良,原文标题:《大模型的未来在哪?》,头图来自:《银翼杀手2049》
自2018年谷歌发布BERT以来,预训练大模型经过三年的发展,以强大的算法效果,席卷了NLP为代表的各大AI榜单与测试数据集。2020年OpenAI发布的NLP大模型GPT-3,实现了千亿级数据参数。GPT-3除了具备传统的NLP能力之外,还可以算术、编程、写小说、写论文摘要,一时之间成为科技圈中的爆点。到2021年,我们可以看到各大学术机构、科技企业都在打造自己的大模型,并且对其能力边界、技术路径进行了极大拓展。
【 泛化性|我们真的需要那么多“超大模型”吗?】身在科技圈中会有明显的感受,今年大模型的会议与讨论越来越多,预训练大模型本身的优势我们在很多新闻中都感受到了。打造大模型并不是一件轻松容易的事情,需要耗费大量的数据、算力资源等,大模型的意义是为了让算法模型集中化,但是市场中有条件的企业和机构都开始耗费大量资源自研大模型。大模型算法模型的集中化优势,经过这些机构对集中资源的分化,又有种烟囱式的割裂。
其实现实可能只需要一个发展到极致化的大模型就足够大家使用了,没有必要人手一个。而且预训练大模型的发展在这样的模式下也会受到一些影响,而在这个态势下也有一些趋势与变化值得讨论与关注。
大模型发展模式的卡点
BERT、GPT等大规模预训练模型(PTM)近年来取得了巨大成功,成为AI领域的里程碑。因为预训练大模型的显著优势,现在AI社区的共识是采用它作为下游任务的开始,而不是从头开始训练数据、建立模型。
随着产学研各界的深入研究,大模型在AI各界的地位得到不断加强。一些机构和产业界对大模型的参与到角逐,使得其呈现出一种宣传炫技般的画面感受。这样的发展模式很可能会给行业带来一些不好的影响:
1. 大模型成为一些机构和企业秀肌肉的军备竞赛,大家开始比拼各自参数集数量级。你百亿级,我就千亿级。数据集本身就有限,标榜自己的数据集越大,也意味着水分比较多,而在真实落地使用的情况方面,也并不不一定理想。算力资源和训练时间消耗过大,并且也只限于部分行业的部分问题,普适性差。
2. 国内预训练模型的玩家们可用的中文数据集有限,就是我们知道的几种主流常用数据来源。在有限的数据集里,大家使用的数据未免重复,而因此研究出来的大模型能力就比较接近。走相同的路径做类似的事情,有点浪费资源与算力。
3. 大模型是否优秀,不仅依赖数据的精度与网络结构,也是对其与行业结合软硬件协同能力的比拼。单纯只强调低头研发高参数集、强算力模型等的方向,轻视一些与行业的协同二次调试等问题,就会陷入闭门造车的局面,限制了落地的路,走不远。
4. 一些预训练大模型经过极致化(数据、模型、算力)的发展后,也有可能面临小众、泛用性差的情形,比如一些高校研发的预训练大模型只能在小众的学术圈子里使用,无法工程化使用,最终沦为一次性的模型,浪费大量的资源。
虽然我们看到各种大模型在集中式爆发发展,但其实目前大模型行业还处于初始阶段,面临一些问题与卡点无可避免。行业内人士应该会更加敏感地体察到这些现象,谁也不会想要让这些荆棘以常态的模式横亘在发展前路上。大家花费精力激荡脑力,想要发展的共识是打造出行业内唯一的模型。那么,对于行业来说,究竟什么样的大模型才是最好的呢?
- 小米科技|不聊性能只谈拍照!新旗舰反向升级成潮流,拍照手机如何选?
- 小米科技|预算只有两三千买这三款,颜值性能卓越,没有超高预算的用户看看
- 苹果|最具性价比的苹果手机来了,降价2120元,iPhone12已跌至冰点价
- 小米科技|RTX3060的性能到底如何?相比RTX2060提升有多大?
- 传感器|称年轻,我们怎么做到经济自由?
- 将理论注入深度学习,对过渡金属表面进行可解释的化学反应性预测
- OPPO|OPPO A97曝光:5700mAh大电池加持,性价比十足
- 我们的生活|社交正在推动“孤独生意”多元化发展,天聊将重塑用户精神世界!
- 苹果|手机性能排行:华为垫底,vivo第一,黑马不是小米
- |盘点三款外观颜值最适合春节的手机:一款比一款好看,性价比很高