为迎接超大模型时代,Meta 想要打造“全球最快 AI 超算”( 三 )


就连英伟达也表示,Meta 的计划,将让 RSC 成为英伟达 DGX A100 截至目前最大的客户部署集群,没有之一。
算力提升了,其它配套设施,包括存储和网络,也要跟上。
按照 Meta 的预计,RSC 的 P2 完成后,其数据存储总量将达到1 EB——折合超过10亿 GB。
不仅如此,整个超算集群的单个节点之间的通讯带宽也获得了史无前例般的提升,达到惊人的16TB/s,并且实现一比一过载(也即每个 DGX A100 计算节点对应一个网络接口,不出现多节点共享接口争抢带宽资源的情况)
(这里还有个点值得单独提一下:按照 Meta 团队的估计,像 RSC 这样采用 DGX A100 节点组建超算集群的做法,能够支持的节点上限也就是1.6万了,再多就会出现过载,意味着追加投资的边际收益显著降低。)
为迎接超大模型时代,Meta 想要打造“全球最快 AI 超算”
文章插图
为迎接超大模型时代,Meta 想要打造“全球最快 AI 超算”
文章插图
在数据安全的角度,Meta 这次也没有忘了在新闻稿中专门介绍其数据处理方式,以求令公众安心。
“无论是检测有害内容,还是创造新的增强现实体验——为了打造新的 AI 模型,我们都会用到来自公司生产系统,取自真实世界的数据,”Meta 表示,这也是为什么RSC 从设计之初就加入了数据隐私和数据安全方面的考虑。只有这样,Meta 的研究院才能够安全地使用加密、匿名化后的真实世界数据来训练模型。
1)RSC 被设计为无法和真正的互联网直接连接,而是和位于 RSC 所在地附近的一座 Meta 数据中心进行连接;
2)当 Meta 的研究人员向 RSC 的服务器导入数据的时候,这些数据首先要通过一道隐私审查系统,确认数据已经进行了匿名化;
3)在数据正式投入到 AI 模型算法的训练之前,数据也会再次进行加密,并且密钥是周期生成和抛弃的,这样即使有旧的训练数据存储,也无法被访问;
4)数据只会在训练系统的内存中解密,这样即使有不速之客闯入 RSC,对服务器进行物理访问,也无法破解数据。
可能是出于保密的目的,Meta 甚至连 RSC 的具体所在地都没有透露……
不过根据已知的情况,RSC 的附近必有一座 Facebook/Meta 数据中心存在。并且,下图截取自 RSC 的公告视频,图中我们可以看到,AI RSC 位于右上,左下则是 Meta 的一座数据中心。图中有着大量较高的树木。
为迎接超大模型时代,Meta 想要打造“全球最快 AI 超算”
文章插图
硅星人基本可以确定,上图中的 Meta 数据中心位于美国弗吉尼亚州 Henrico 县。该县是美国东部最大的数据中心集中地,也是连接欧洲、南美、亚洲、非洲的多条海底光缆在美国的末端所在地。至于 RSC 的实际所在地,其前身应该是 QTS Richmond 数据中心。
为迎接超大模型时代,Meta 想要打造“全球最快 AI 超算”
文章插图
最后,让我们来看看成本……
不考虑同样极其昂贵的存储和网络基础设施,我们就先只看计算的部分:
每台 DGX A100 的标准售价为19.9万美元,Meta 大宗采购肯定有折扣,但假设没有折扣的话:RSC 这次 P2 的扩容成本,仅显卡采购的部分,就高达2.5亿美元……)
当然,按照今天的 Meta 市值来看,这笔费用简直是九牛一毛。假若真的打造出全世界最大最强最快的 AI 超算,对于这家公司的业务,无论是其现在的核心业务,还是未来的元宇宙产品,预计都能够带来非常大的帮助。
Meta 是这么说的:“最终,我们在 RSC 上面的努力,将能够为作为下一个关键计算平台的元宇宙铺就道路。届时,AI 驱动的应用和产品将会扮演重要的角色。”