为迎接超大模型时代,Meta 想要打造“全球最快 AI 超算”( 二 )


为迎接超大模型时代,Meta 想要打造“全球最快 AI 超算”
文章插图
2020年初,Facebook 团队认为当时公司的超算集群难以跟上未来大模型训练的需要,决定“重新出发”,采用最顶尖的 GPU 和数据传输网络技术,打造一个全新的集群。
这台新的超算,必须能够在大小以 EB(超过10亿GB)为单位的数据集上,训练具有超过万亿参数量的超大神经网络模型。
(例如,中国科研机构智源 BAAI 开发的“悟道”,以及谷歌去年用 Switch Transformer 技术训练的混合专家系统模型,都是参数量达到万亿级别的大模型;相比来看,此前在业界非常著名的 OpenAI GPT-3 语言模型,性能和泛用性已经非常令人惊讶,参数量为1750亿左右。)
Meta 团队选择了三家在 AI 计算和数据中心组件方面最知名的公司:英伟达、Penguin Computing,和 Pure Storage。
具体来说,Meta 直接从英伟达采购了760台 DGX 通用训练系统。这些系统包含共计6080块 Ampere 架构 Tesla A100 Tensor 核心 GPU,在当时,乃至今天,都是最顶级的 AI 训练、推理、分析三合一系统。中间的网络通信则采用了英伟达 InfiniBand,数据传输速度高达200GB每秒。
存储方面,Meta 从 Pure Storage 采购了共计 231PB 的闪存阵列、模块和缓存容量;而所有的机架搭建、设备安装和数据中心的后续管理工作,则由从 Facebook 时代就在服务该公司的 Penguin Computing 负责。
这样组建出来的新超算集群,Meta 将其正式命名为 AI RSC:
为迎接超大模型时代,Meta 想要打造“全球最快 AI 超算”
文章插图
相较于之前 FAIR 采用 V100 显卡搭建的计算集群,初代 RSC 对于生产级别的计算机视觉类算法带来了20倍的性能提升,运行英伟达多卡通讯框架的速度提升了超过9倍,对于大规模自然语言处理类 workflow 的训练速度也提升了3倍——节约的训练时间以周为单位。
值得一提的是,在 Meta 刚刚做好 RSC 升级计划的时候,新冠疫情突然袭来了。所有实体建造的工期都遇到了极大的不确定性,RSC 能否成功升级换代,打上了一个巨大的问号。
然而,公司业务发展和 AI 科研的需要,无法等待新冠疫情。负责 RSC 升级和建造的团队,以及包括英伟达、Penguin Computing、Pure Storage 等三家硅谷公司在内的技术合作方,不得不在极大的工期压力下,完成数据中心的装修建设、设备的生产和运输、现场装机、布线、调试等一系列非常繁琐和技术要求极高的工作。
【 为迎接超大模型时代,Meta 想要打造“全球最快 AI 超算”】更夸张的是由于当时全美各地都有居家隔离令,整个 RSC 项目团队的多位负责人,都不得不在家中远程工作……团队里的研究员 Shubho Sengupta 表示,“最让我感到骄傲的是,我们在完全远程办公的条件下完成了(RSC 的升级工作)。考虑到项目的复杂性,完全没有和其它团队成员见面就能把这些事都办了,简直太疯狂了”
为迎接超大模型时代,Meta 想要打造“全球最快 AI 超算”
文章插图
就目前来看,RSC 已经是世界上运行速度最快的 AI 超级计算机之一了。
但是 Meta 仍不满足。
打造全球最快、最安全的 AI 超算为了满足 Meta 在生产环境和 AI 研究这两大方面日益增长的算力需求,RSC 必须持续升级扩容。
按照 Meta 的 RSC 第二阶段(P2)计划,到今年7月,也即半年之内,整个计算集群的 A100 GPU 总数提升到惊人的1.6万块……
初代 RSC 采用的 DGX A100 单机数量是760台,折合6,080张显卡——这样计算的话,也就是说 RSC 将在 P2 再增加9,920张显卡,即 Meta 需要再从英伟达采购1,240台 DGX A100 超级计算机……