伊隆·马斯克|陈根：超强语言模型，包括5300亿个参数埃隆|手机行业

文章图片

文|陈根
全球有数亿用户依靠基于人工智能的搜索、翻译以及语音识别服务，这推动了对更庞大人工智能计算能力的需求。此前，领先的图像识别系统需要每秒7000千万亿次浮点运算的计算能力；目前，处理实时语言翻译的研究者需要超过每秒100000千万亿次浮点运算的能力。
在机器学习中，尤其在语言处理领域，参数的数量和复杂程度之间的相关性很高。通常而言，参数越多、系统越复杂，往往功能越强大。因为这样系统在训练过程中会获得更多的训练数据，系统对于语言的理解也会随之更加丰富、细致和准确，甚至可以获得总结书籍以及完整编程写代码的能力。
近日，微软和英伟达宣布了由DeepSpeed和Megatron驱动的Megatron-Turing自然语言模型MT-NLG（Megatron-Turing Natural Language Generation model））。该模型包括5300亿个参数，与现有最大的模型GPT-3相比，参数数量是其3倍，是迄今为止训练的最大和最强的解码语言模型。

训练这样的大型模型需要面对很多挑战，开发人员沿着现有的人工智能轴线也进行了许多创新和突破。例如，通过紧密合作，英伟达和微软将最先进的GPU加速训练基础设施与尖端的分布式学习软件堆栈相融合，实现了前所未有的训练效率；微软与NVIDIA建立了高质量的自然语言训练语料库，其中包含数千亿个标记，并共同开发了训练配方，以提高优化效率和稳定性。
具体来说，该系统由 560 个 DGX A100 服务器组成，每个服务器包含 8 个 A100 GPU 。所以GPU 都使用 NVLink 和 NVSwitch 相互连接，每个 GPU 都能够以每秒 113 万亿次浮点运算的速度运行。

【伊隆·马斯克|陈根：超强语言模型，包括5300亿个参数】为了训练 MT-NLG ，微软和英伟达还专门创建了一个训练数据集，这一数据集主要来自 The Pile ，其中包含了来自英语网站的 2700 亿个“令牌” 。与所有 AI 模型一样， MG-NLP 必须通过得到一系列示例来获得“训练” ，从而学习数据点之间的各种模式，例如语法和句法规则。
在为 MG-NLG 进行基准测试时，虽然 MT-NLG 还没有达到特别准确的程度，但这已经是自然语言处理中的一大突破。