为迎接超大模型时代,Meta 想要打造“全球最快 AI 超算”
Meta 不仅是全球最大的社交网络公司,和当下最热门技术概念“元宇宙”的推行者,它同时也是人工智能(AI)研究的全球顶级公司之一。
该公司在 AI 方面卓越研究成果的背后,必然有强大的算力支持。不过一直以来,Facebook 从未对外界公开展示过其算力究竟有多厉害。
而在今天,Meta 公司突然对外宣布了其在打造 AI 超级计算机方面的最新进展。
根据 Meta 此次公开透露的结果,其打造的超级计算机 AI RSC,目前算力在全球应该已经排到了前四的水平。
这个情况已经足以令人非常震惊。毕竟,在算力方面能够和 RSC 相提并论的其它超级计算机,均由中国、美国、日本的国有研究机构运作——而 RSC 是前五里唯一来自于私营机构的超算系统。
这还没完:这台超级计算机,还在以惊人的速度,变得更快、更强。
Meta 预测,到今年7月,也即半年之内,RSC 的算力将实现2.5倍的增长。另据专业机构 HPCwire 估计,Meta 的 RSC 超级计算机,其运行 Linpack benchmark 的算力将有望达到220 PFlops。
如无意外,RSC 将成为名副其实的“全球最快 AI 超级计算机”。
文章插图
AI 研发进入“超算”时代首先需要回答一个问题:
什么样的 AI 研究,需要如此强大的超级计算机?
一般的模型,或许可以在一般的电脑或普通的数据中心里,用一块或是几块显卡就可以完成训练。而 Meta 正在研究的,是比目前的模型参数量要大得多,性能要求更高、更严格,训练花费时间更久的——超大模型。
以识别有害内容为例:CV 算法需要能够以更高的采样率,处理更大、更长的视频;语音识别算法需要在极大噪音的复杂背景下达到更高的识别准确度;NLP 模型要能够同时理解多种语言、方言和口音,等等……
在过去,许多算法在跑分数据集上都得到了不错的成绩。然而,Meta 是一家几大洲十亿级别用户量的公司,它必须确保同一个模型投放到生产环境中能够最大限度保证普适性。所以,一般模型不够用了,现在要训练大模型。
训练大模型,需要大算力——问任何一个从事大模型研究的人,你都会得到这样的答案。毕竟过去的训练任务用几周能够完成,可在今后,面对新的大模型,我们可等不起几年……
“在今天,包括识别有害内容等在内的许多重要的工作,都对于超大模型产生了极大的需要,”Meta 在其新闻稿中写道,“而高性能计算系统是训练这些超大模型的重要组件。”
Meta 此次发布的超级计算机 AI RSC,全称为 AI Research SuperCluster(人工智能研究超级计算集群)。
虽然 Meta 在今天首次公开宣布推出这一系统,实际上 RSC 的前身版本最早在2017年就已经在 Facebook 公司内部投入生产使用了。当时,Facebook 团队采用了2.2万张英伟达 V100 Tensor GPU 组成了首个单一集群。该系统每天可以运行大约3.5万个训练任务。
据 HPCwire 预计,这个基于 V100 GPU 的前身版本,按照 Linpack benchmark 的浮点计算性能应该已经达到了135 PFlops。这个水平在全球超算排行榜 Top500 的2021年11月排名中,已经足以排到第三名了,也即其算力可能已经超越了美国能源部在加州 Livermore 运作的“山脊”(Sierra) 超级计算机。
不过,对于 Meta 来说,这还远远不够。他们想要的,是世界上最大、最快、最强的 AI 超级计算机。
这台超算还必须要达到生产环境的数据安全级别,毕竟在未来,Meta 的生产系统所用的模型可能直接在它上面训练甚至运行。
并且,这台超算还需要为用户——Meta 公司的 AI 研究员——提供不亚于一般训练机/显卡的使用便利性,和流畅的开发者体验。
- 华为p50|被袁咏仪的新年礼物酸到了 华为P50 Pocket到底有什么魔力
- 京东超市发布“2021中国十大老字号”榜单 稻香村、同仁堂、五
- 本文转自:北方网1月24日|天津联通开通首批超千兆FTTR全光组网服务
- fMeta 为开发中地区提供的“免费”互联网服务被发现持续向用户收费
- 防御能力|什么样的WAF,才有可能成为用户的最佳选择?
- 华为|中国手机市场份额排名:vivo第一、OPPO第二
- QQ内测超级QQ秀:人物变3D形象 可DIY外形
- 天玑1200|超越神U骁龙870!联发科天玑1300首度曝光
- 管理|北森纪伟国:HR软件从为"HR管理而设计"走向“为员工而设计”|探路2022
- 攻击|华为云春节前夕遭连续偷袭!密谋3个月,专挑凌晨断网