伊隆·马斯克|陈根:超强语言模型,包括5300亿个参数

伊隆·马斯克|陈根:超强语言模型,包括5300亿个参数

文章图片


文|陈根
全球有数亿用户依靠基于人工智能的搜索、翻译以及语音识别服务 , 这推动了对更庞大人工智能计算能力的需求 。 此前 , 领先的图像识别系统需要每秒7000千万亿次浮点运算的计算能力;目前 , 处理实时语言翻译的研究者需要超过每秒100000千万亿次浮点运算的能力 。
在机器学习中 , 尤其在语言处理领域 , 参数的数量和复杂程度之间的相关性很高 。 通常而言 , 参数越多、系统越复杂 , 往往功能越强大 。 因为这样系统在训练过程中会获得更多的训练数据 , 系统对于语言的理解也会随之更加丰富、细致和准确 , 甚至可以获得总结书籍以及完整编程写代码的能力 。
近日 , 微软和英伟达宣布了由DeepSpeed和Megatron驱动的Megatron-Turing自然语言模型MT-NLG(Megatron-Turing Natural Language Generation model)) 。 该模型包括5300亿个参数 , 与现有最大的模型GPT-3相比 , 参数数量是其3倍 , 是迄今为止训练的最大和最强的解码语言模型 。

训练这样的大型模型需要面对很多挑战 , 开发人员沿着现有的人工智能轴线也进行了许多创新和突破 。 例如 , 通过紧密合作 , 英伟达和微软将最先进的GPU加速训练基础设施与尖端的分布式学习软件堆栈相融合 , 实现了前所未有的训练效率;微软与NVIDIA建立了高质量的自然语言训练语料库 , 其中包含数千亿个标记 , 并共同开发了训练配方 , 以提高优化效率和稳定性 。
具体来说 , 该系统由 560 个 DGX A100 服务器组成 , 每个服务器包含 8 个 A100 GPU 。 所以GPU 都使用 NVLink 和 NVSwitch 相互连接 , 每个 GPU 都能够以每秒 113 万亿次浮点运算的速度运行 。

【伊隆·马斯克|陈根:超强语言模型,包括5300亿个参数】为了训练 MT-NLG , 微软和英伟达还专门创建了一个训练数据集 , 这一数据集主要来自 The Pile , 其中包含了来自英语网站的 2700 亿个“令牌” 。 与所有 AI 模型一样 , MG-NLP 必须通过得到一系列示例来获得“训练” , 从而学习数据点之间的各种模式 , 例如语法和句法规则 。
在为 MG-NLG 进行基准测试时 , 虽然 MT-NLG 还没有达到特别准确的程度 , 但这已经是自然语言处理中的一大突破 。