Meta揭幕全球最快AI超算：目标一天之内训练万亿参数大模型( 二 ) 机器之心报道编辑：蛋酱、泽

文章图片
与Meta的传统生产和研究基础设施相比， RSC的早期基准测试表明，它运行计算机视觉工作流程的速度是之前的20倍，运行英伟达多卡通信框架(NCCL)的速度快了9倍，训练大规模NLP模型快了3倍。这意味着一个拥有数百亿参数的模型可以在3周内完成训练，而之前这一数字是9周。
作为参考，在最新一次MLPerf神经网络训练基准中测试的最大生产就绪（production-ready）系统是英伟达部署的4320-GPU系统，该系统可以在不到一分钟的时间内训练BERT 。然而， BERT「只有」1.1亿个参数，与Meta想要使用的数万亿个参数也无法相比。
RSC的推出还伴随着Meta使用数据进行研究的方式的变化：
与我们之前仅利用开源和其他公开可用数据集的AI研究基础设施不同， RSC允许我们在模型训练中包含来自Meta生产系统的真实示例，确保研究有效地转化为实践。
研究人员还写道， RSC将采取额外的预防措施来加密和匿名这些数据，以防止泄漏。这些步骤包括将RSC与更大的互联网隔离既没有入站连接也没有出站连接， RSC的流量只能从Meta的生产数据中心流入。此外，存储和GPU之间的数据路径是端到端加密的，数据是匿名的，并经过审查过程以确认匿名。
拓展计划
AI超算RSC已经于昨天正式启用，但它的开发仍在进行中。 Meta表示，一旦完成构建RSC的第二阶段，它将可能成为全球最快的AI超级计算机，其混合精度计算性能接近5exaflops（10的18次方）。
在2022年， Meta正计划将GPU的数量从6080个增加到16000个，这将使AI训练性能提高2.5倍以上。 InfiniBand互联结构将扩展为支持16000个端口，采用两层拓扑结构。该系统的存储系统将具有16TB/s的目标交付带宽和EB级容量，以满足不断增长的需求。
【Meta揭幕全球最快AI超算：目标一天之内训练万亿参数大模型】参考链接：
https://ai.facebook.com/blog/ai-rsc
https://spectrum.ieee.org/meta-ai-supercomputer
https://www.reuters.com/technology/meta-introduces-fastest-ai-supercomputer-2022-01-24/
https://blogs.nvidia.com/blog/2022/01/24/meta-ai-supercomputer-dgx/
https://www.wsj.com/articles/meta-unveils-new-ai-supercomputer-11643043601
使用Python快速构建基于NVIDIARIVA的智能问答机器人
NVIDIARiva是一个使用GPU加速，能用于快速部署高性能会话式AI服务的SDK ，可用于快速开发语音AI的应用程序。 Riva的设计旨在轻松、快速地访问会话AI功能，开箱即用，通过一些简单的命令和API操作就可以快速构建高级别的对话式AI服务。
2022年1月26日19:30-21:00 ，最新一期线上分享主要介绍：
对话式AI与NVIDIARiva简介
利用NVIDIARiva构建语音识别模块
利用NVIDIARiva构建智能问答模块
利用NVIDIARiva构建语音合成模块