如果AIGC继续发展，你相信哪个世界？( 三 ) 作者：周志峰、胡奇编者按：

文章图片
图片来源：论文OntheOpportunitiesandRiskofFoundationModels
但如果进一步对为什么大模型能够带来更好的效果和泛化性进行分析，我们目前还只能通过实验而非清晰的理论进行解释。的确大多数情况下更大规模的模型会带来更好的效果，但具体原因尚未被探明，学术界也存在很多探讨。在最新的一篇关于大模型的研究论文中，作者通过实验证明了大多数任务的效果随着模型的增大而提高——在一些任务中，随着模型增大而效果类似线性相关地变好的情况，作者将这类任务定义为LinearityTasks ，同样，也有一些任务需要模型规模超过某个临界点后，会突然出现相应的能力，此后在随着模型规模的增大而提升效果，作者将这类任务定义为BreakthroughnessTasks 。（当然，也存在少部分任务的效果随着模型增大而降低）。

文章图片
图片来源：论文BeyondtheImitationGame:Quantifyingandextrapolatingthecapabilitiesoflanguagemodels
同样，论文EmergentAbilitiesofLargeLanguageModels中也有类似的实验证明，当模型达到临界大小时，许多NLP能力会不可预测地出现——涌现规律。

文章图片
如果再进一步追问为什么模型可以越做越大，则不得不提到Transformer的优点。 Transformer解决了并行化训练和长依赖问题，能够容纳更多的参数规模，为模型进一步做大提供了基础，而大模型带来了更好的效果和泛化性，提供了超过以往的生成能力，引发了新一波AIGC的爆发。
Transformer提供的并行化和对全局信息掌控能力，对算力的充分挖掘和利用，也近乎完美地符合2019年DeepMind杰出科学家、强化学习的奠基人之一的RichSutton在文章TheBitterLesson中论述的观点——从过去70年的人工智能研究中可以得到的最大教训，是利用计算的一般方法最终是最有效的，而且效果提升幅度很大。
在文章中， RichSutton通过列举深度搜索超过人类知识设计的算法而在计算机国际象棋中击败人类冠军、隐性马尔可夫模型在语音识别领域战胜基于人类知识的算法、计算机视觉中深度学习使用卷积超过此前搜索边缘和以SIFT特征为基础的方法，论证了为了寻求在短期内有所作为的改进，研究人员更倾向于利用人类对该领域的知识，但从长远来看，唯一重要的是对计算的利用。
然而， RichSutton关于“长远来看，唯一重要的是对计算的利用”的观点，当时并没有引发业界的强烈关注，甚至在大模型促进AIGC蓬勃发展的今天，很多创业者和投资人仍然没有对这句话的意义足够重视。
未来的世界目前关于GPT-4流行着两种传言，第一种是生成GPT-4并不会比GPT-3的参数规模大太多，预计是几千亿级别的参数量，但会使用更大量的数据进行训练；另一种传言是GPT-4的规模将会比GPT-3大至少一个量级。不管哪一种传言是对的，如果我们认真思考RichSutton的“长远来看，唯一重要的是对计算的利用”这一观点，则很难避免的需要回答这样一个问题“如果GPT-4 ，或者3年、5年后最好的模型比GPT-3大100倍甚至1000倍（这里的100倍，可能是模型参数量、也可能是训练使用的数据量），作为AIGC应用侧的初创公司还是否要自研？”

文章图片
2012年至今，表现最好的模型参数每18个月增加35倍，增速远超摩尔定律
我们在今天热闹的AIGC创业氛围中，有时会听到这样的一种乐观言论—市场上能够调用的大模型API效果并不好，我们需要得到一笔融资，去研发自己的大模型，有了自研的大模型，我们想要做的杀手级别的应用（如写作助手、图画生成等等）就会取得更好的效果，最终赢得客户。持这种论调的创业者，大多有着不错的技术背景，并且大概率在AI领域有过一些值得人尊敬的成果。然而， RichSutton之所以得出惨痛的教训，正是因为基于这样的历史观察：1）人工智能研究者经常试图将认知加入到他们的模型中， 2）这在短期内总是有帮助的，并且对研究者个人来说是满意的，但是3）从长远来看，它的影响趋于平稳，甚至抑制了进一步的进展， 4）突破性的进展最终通过一种与之对立的方法，是基于搜索和学习这样能够扩展计算的方法。