gpu|陈根:超强语言模型,包括5300亿个参数
文|陈根
【 gpu|陈根:超强语言模型,包括5300亿个参数】全球有数亿用户依靠基于人工智能的搜索、翻译以及语音识别服务,这推动了对更庞大人工智能计算能力的需求。此前,领先的图像识别系统需要每秒7000千万亿次浮点运算的计算能力;目前,处理实时语言翻译的研究者需要超过每秒100000千万亿次浮点运算的能力。
在机器学习中,尤其在语言处理领域,参数的数量和复杂程度之间的相关性很高。通常而言,参数越多、系统越复杂,往往功能越强大。因为这样系统在训练过程中会获得更多的训练数据,系统对于语言的理解也会随之更加丰富、细致和准确,甚至可以获得总结书籍以及完整编程写代码的能力。
近日,微软和英伟达宣布了由DeepSpeed和Megatron驱动的Megatron-Turing自然语言模型MT-NLG(Megatron-Turing Natural Language Generation model))。该模型包括5300亿个参数,与现有最大的模型GPT-3相比,参数数量是其3倍,是迄今为止训练的最大和最强的解码语言模型。
文章插图
训练这样的大型模型需要面对很多挑战,开发人员沿着现有的人工智能轴线也进行了许多创新和突破。例如,通过紧密合作,英伟达和微软将最先进的GPU加速训练基础设施与尖端的分布式学习软件堆栈相融合,实现了前所未有的训练效率;微软与NVIDIA建立了高质量的自然语言训练语料库,其中包含数千亿个标记,并共同开发了训练配方,以提高优化效率和稳定性。
具体来说,该系统由 560 个 DGX A100 服务器组成,每个服务器包含 8 个 A100 GPU。所以 GPU 都使用 NVLink 和 NVSwitch 相互连接,每个 GPU 都能够以每秒 113 万亿次浮点运算的速度运行。
文章插图
为了训练 MT-NLG,微软和英伟达还专门创建了一个训练数据集,这一数据集主要来自 The Pile,其中包含了来自英语网站的 2700 亿个“令牌”。与所有 AI 模型一样,MG-NLP 必须通过得到一系列示例来获得“训练”,从而学习数据点之间的各种模式,例如语法和句法规则。
在为 MG-NLG 进行基准测试时,虽然 MT-NLG 还没有达到特别准确的程度,但这已经是自然语言处理中的一大突破。
- GPU|天玑8000新机快了,相机的配置看上去挺不错,准备冲吗?
- 三星|三星手机Soc搭载AMD Radeon GPU曝光,运行频率超过苹果A15
- meta|陈根:Meta或将发布新专利,为元宇宙助力
- 小米科技|小米12X超强劲敌,曲面屏+骁龙870+IMX766,到手价仅2079元
- gpu|登临科技完成新一轮战略融资,高通创投、光远资本等产业基金持续加持
- GPU|AI计算平台公司“登临科技”完成新一轮战略融资
- C++|华硕灵耀X双屏Pro测评:超强配置与双4K触屏
- 阿里巴巴|陈根:互联网下半场,阿里难造风
- gpu|国产 GPU 公司摩尔线程与同方达成合作
- gpu|借鸡生蛋孵化新一代芯片,消息称台积电将为英特尔设3nm专线