人类没有足够的高质量语料给AI学了,2026年就用尽( 二 )


人类没有足够的高质量语料给AI学了,2026年就用尽
文章图片
再结合用户生成的平均数据量 , 就能计算出生成数据的速率 。 (由于地理和时间变化复杂 , 论文简化了用户平均生成数据量计算方法)
根据这一方法 , 计算得出语言数据增长率在7%左右 , 然而这一增长率会随着时间延长逐渐下降 。
预计到2100年 , 我们的语言数据增长率会降低到1% 。
同样类似的方法分析图像数据 , 当前增长率在8%左右 , 然而到2100年图像数据增长率同样会放缓至1%左右 。
论文认为 , 如果数据增长率没有大幅提高、或是出现新的数据来源 , 无论是靠高质量数据训练的图像还是文本大模型 , 都可能在某个阶段迎来瓶颈期 。
对此有网友调侃 , 未来或许会有像科幻故事情节一样的事情发生:
人类为了训练AI , 启动大型文本生成项目 , 大家为了AI拼命写东西 。
人类没有足够的高质量语料给AI学了,2026年就用尽
文章图片
他称之为一种“对AI的教育”:
我们每年给AI送14万到260万单词量的文本数据 , 听起来似乎比《黑客帝国》中人类当电池要更酷?
人类没有足够的高质量语料给AI学了,2026年就用尽
文章图片
你觉得呢?
论文地址:
https://arxiv.org/abs/2211.04325参考链接:
https://twitter.com/emollick/status/1605756428941246466