人类没有足够的高质量语料给AI学了,2026年就用尽

萧箫发自凹非寺
量子位|公众号QbitAIAI胃口太大 , 人类的语料数据已经不够吃了 。
来自Epoch团队的一篇新论文表明 , AI不出5年就会把所有高质量语料用光 。
人类没有足够的高质量语料给AI学了,2026年就用尽
文章图片
要知道 , 这可是把人类语言数据增长率考虑在内预测出的结果 , 换而言之 , 这几年人类新写的论文、新编的代码 , 哪怕全都喂给AI也不够 。
照这么发展下去 , 依赖高质量数据提升水平的语言大模型 , 很快就要迎来瓶颈 。
已经有网友坐不住了:
人类没有足够的高质量语料给AI学了,2026年就用尽】这太荒谬了 。 人类无需阅读互联网所有内容 , 就能高效训练自己 。
我们需要更好的模型 , 而不是更多的数据 。
还有网友调侃 , 都这样了不如让AI吃自己吐的东西:
可以把AI自己生成的文本当成低质量数据喂给AI 。
人类没有足够的高质量语料给AI学了,2026年就用尽
文章图片
让我们来看看 , 人类剩余的数据还有多少?
文本和图像数据“存货”如何?论文主要针对文本和图像两类数据进行了预测 。
首先是文本数据 。
数据的质量通常有好有坏 , 作者们根据现有大模型采用的数据类型、以及其他数据 , 将可用文本数据分成了低质量和高质量两部分 。
高质量语料 , 参考了Pile、PaLM和MassiveText等大型语言模型所用的训练数据集 , 包括维基百科、新闻、GitHub上的代码、出版书籍等 。
人类没有足够的高质量语料给AI学了,2026年就用尽
文章图片
低质量语料 , 则来源于Reddit等社交媒体上的推文、以及非官方创作的同人小说(fanfic)等 。
根据统计 , 高质量语言数据存量只剩下约4.6×10^12~1.7×10^13个单词 , 相比当前最大的文本数据集大了不到一个数量级 。
结合增长率 , 论文预测高质量文本数据会在2023~2027年间被AI耗尽 , 预估节点在2026年左右 。
看起来实在有点快……
人类没有足够的高质量语料给AI学了,2026年就用尽
文章图片
当然 , 可以再加上低质量文本数据来救急 。 根据统计 , 目前文本数据整体存量还剩下7×10^13~7×10^16个单词 , 比最大的数据集大1.5~4.5个数量级 。
如果对数据质量要求不高 , 那么AI会在2030年~2050年之间才用完所有文本数据 。
人类没有足够的高质量语料给AI学了,2026年就用尽
文章图片
再看看图像数据 , 这里论文没有区分图像质量 。
目前最大的图像数据集拥有3×10^9张图片 。
据统计 , 目前图片总量约有8.11×10^12~2.3×10^13张 , 比最大的图像数据集大出3~4个数量级 。
论文预测AI会在2030~2070年间用完这些图片 。
人类没有足够的高质量语料给AI学了,2026年就用尽
文章图片
显然 , 大语言模型比图像模型面临着更紧张的“缺数据”情况 。
那么这一结论是如何得出的呢?
计算网民日均发文量得出论文从两个角度 , 分别对文本图像数据生成效率、以及训练数据集增长情况进行了分析 。
值得注意的是 , 论文统计的不都是标注数据 , 考虑到无监督学习比较火热 , 把未标注数据也算进去了 。
以文本数据为例 , 大部分数据会从社交平台、博客和论坛生成 。
为了估计文本数据生成速度 , 有三个因素需要考虑 , 即总人口、互联网普及率和互联网用户平均生成数据量 。
例如 , 这是根据历史人口数据和互联网用户数量 , 估计得到的未来人口和互联网用户增长趋势: