并且 , 这台超算还需要为用户——Meta公司的AI研究员——提供不亚于一般训练机/显卡的使用便利性 , 和流畅的开发者体验 。
文章图片
MetaAIRSC技术项目经理KevinLee图片来源:Meta
2020年初 , Facebook团队认为当时公司的超算集群难以跟上未来大模型训练的需要 , 决定“重新出发” , 采用最顶尖的GPU和数据传输网络技术 , 打造一个全新的集群 。
这台新的超算 , 必须能够在大小以EB(超过10亿GB)为单位的数据集上 , 训练具有超过万亿参数量的超大神经网络模型 。
(例如 , 中国科研机构智源BAAI开发的“悟道” , 以及谷歌去年用SwitchTransformer技术训练的混合专家系统模型 , 都是参数量达到万亿级别的大模型;相比来看 , 此前在业界非常著名的OpenAIGPT-3语言模型 , 性能和泛用性已经非常令人惊讶 , 参数量为1750亿左右 。 )
Meta团队选择了三家在AI计算和数据中心组件方面最知名的公司:英伟达、PenguinComputing , 和PureStorage 。
具体来说 , Meta直接从英伟达采购了760台DGX通用训练系统 。 这些系统包含共计6080块Ampere架构TeslaA100Tensor核心GPU , 在当时 , 乃至今天 , 都是最顶级的AI训练、推理、分析三合一系统 。 中间的网络通信则采用了英伟达InfiniBand , 数据传输速度高达200GB每秒 。
存储方面 , Meta从PureStorage采购了共计231PB的闪存阵列、模块和缓存容量;而所有的机架搭建、设备安装和数据中心的后续管理工作 , 则由从Facebook时代就在服务该公司的PenguinComputing负责 。
这样组建出来的新超算集群 , Meta将其正式命名为AIRSC:
文章图片
图中显示的是RSC第一阶段(P1)的参数细节 。 图片来源:Meta
相较于之前FAIR采用V100显卡搭建的计算集群 , 初代RSC对于生产级别的计算机视觉类算法带来了20倍的性能提升 , 运行英伟达多卡通讯框架的速度提升了超过9倍 , 对于大规模自然语言处理类workflow的训练速度也提升了3倍——节约的训练时间以周为单位 。
值得一提的是 , 在Meta刚刚做好RSC升级计划的时候 , 新冠疫情突然袭来了 。 所有实体建造的工期都遇到了极大的不确定性 , RSC能否成功升级换代 , 打上了一个巨大的问号 。
然而 , 公司业务发展和AI科研的需要 , 无法等待新冠疫情 。 负责RSC升级和建造的团队 , 以及包括英伟达、PenguinComputing、PureStorage等三家硅谷公司在内的技术合作方 , 不得不在极大的工期压力下 , 完成数据中心的装修建设、设备的生产和运输、现场装机、布线、调试等一系列非常繁琐和技术要求极高的工作 。
更夸张的是由于当时全美各地都有居家隔离令 , 整个RSC项目团队的多位负责人 , 都不得不在家中远程工作……团队里的研究员ShubhoSengupta表示 , “最让我感到骄傲的是 , 我们在完全远程办公的条件下完成了(RSC的升级工作) 。 考虑到项目的复杂性 , 完全没有和其它团队成员见面就能把这些事都办了 , 简直太疯狂了”
文章图片
就目前来看 , RSC已经是世界上运行速度最快的AI超级计算机之一了 。
但是Meta仍不满足 。
打造全球最快、最安全的AI超算
为了满足Meta在生产环境和AI研究这两大方面日益增长的算力需求 , RSC必须持续升级扩容 。
按照Meta的RSC第二阶段(P2)计划 , 到今年7月 , 也即半年之内 , 整个计算集群的A100GPU总数提升到惊人的1.6万块……
- ColorOS|国产系统不断进步,ColorOS 12这些功能体验真不错
- 安全公司|360 全面转型数字安全公司,周鸿祎:不会裁员
- 5g手机|如果微信实行年费48元,每年可以赚千亿,腾讯为何不这么做?
- 旗舰机|魅族手机推荐与避坑:旗舰机售价不到2000元,降维打击千元机!
- 游戏手机|质量最好是OV两家,品控质量做工非常不错,维修率比苹果还低
- 电池|微信大更新!突破九宫格,朋友圈可以发20张照片了 不过...
- 微软Windows11推广进入末期 后续可能不再免费升级
- 近日|长城坦克不造,国内大神团队却把“坦克100”打造出来
- 不同于发动机|特斯拉modely超车失败撞上路中间隔离带视频曝光
- 商家|不打烊的淘宝,陪你过一个“新”年