众筹超算直播训练1760亿参数AI大模型,九百工程师搞开源

机器之心报道
机器之心编辑部
如果你有100万个GPUhour , 你会训练什么样的语言模型?
到昨天为止 , 大模型「BigScience」已训练了5% 。
这个模型仅bf16权重就有329GB , 正在用384块A100进行训练 , 吞吐量每秒约150TFLOPS 。
好消息是 , 训练损失正在下降:
众筹超算直播训练1760亿参数AI大模型,九百工程师搞开源
文章图片
与很多公司未开源大模型不同的是 , BigScience模型训练的参数所有人都可见 , 根据项目组织者的预测 , 距离完成目标还有三个月的时间 。
人工智能给人类社会带来了根本性的影响 , 但与互联网的兴起不同 , AI极度依赖在更大的数据集上训练更大的模型 。 因此 , 这场科技变革的资源主要掌握在大型科技巨头手中 。 从研究进展、环境、伦理和社会影响的角度看 , 这种现状给AI技术造成了束缚 。 例如 , 外界无法访问训练数据集或检查点 , 这使得其他研究者无法确切分析模型的能力、局限性、潜在改进、偏见等重要方面 。
从2021年5月到2022年5月 , 在(预计)长达一年的时间里 , 来自60个国家和250多个机构的900名研究人员正在共同创建一个非常大的多语言神经网络模型和一个非常大的多语言文本数据集 , 并在算力28petaflops的法国JeanZay(IDRIS)核电超级计算机上运行 。 这个项目被命名为BigScience 。
最近 , 这个项目在推特上开启了直播 。
BigScience是做什么的
开放的科学合作是其他学科领域已获成功的研究模式 , 已有多个对全世界有益的大型共享研究中心 , 例如欧洲核子研究中心CERN 。
类似地 , BigScience项目旨在以一种新的方式在AI/NLP研究社区中创建、研究和共享大型语言模型 , 探索大模型的新型合作模式 。 围绕BigScience项目创建的大型研究社区将能够提前探索超大型语言模型的许多研究问题(能力、局限性、潜在改进、偏见、通用人工智能等) , 并展开学术讨论 , 促进科技的发展 。
BigScience模型是什么样的
简单来说 , BigScience模型是一个1760亿参数的多语言模型 , 它有以下特点:
与GPT类似 , 它是一个只包含解码器(decoder-only)的架构 , 参数量达到了1760亿;
70层的神经网络 , 每层112个注意力头-隐藏维度为14336-2048个token序列长度;
ALiBi位置嵌入-GeLU激活函数 。
BigScience是怎么练成的?
扩展定律(scalinglaws)
首先 , 研究者推导出扩展定律 , 计算了能提供的「最佳」模型上限:从~1650亿的数据token中训练~3920亿参数 。
但是扩展定律没有考虑服务/推理成本、下游任务性能等 。 此外 , 该研究还需要确保低资源语言在预训练期间仍然获得足够多的token 。 研究者不希望BigScience模型需要对整个语言进行零样本学习 , 因此他们决定至少应该预训练3000-4000亿个token 。
众筹超算直播训练1760亿参数AI大模型,九百工程师搞开源
文章图片
计算
回到预算:法国国家大型计算中心GENCI在超级计算机JeanZay上为项目提供了384块英伟达A10080GB的18周时间 , 即1161261个A100-hour!
值得一提的是 , JeanZay是法国在2019年建成的超级计算机 , 硬件由惠普供货 , 2020年扩容后峰值性能达到28Pflops/s 。 由于接入法国电网 , 这台超算是由核电站供能的 。 为了将训练对环境的影响进一步降低 , 他们甚至将硬件产生的热量用于校园建筑的供暖 。
在正式开发之前 , 研究者评估了适合训练的模型大小 , 并考虑了系统的安全方面 。 最后的评估结果即:~1750亿参数的模型 , 其对应的token量有机会达到甚至超过4000亿 。