腾讯发布万亿大模型训练方法:最快256卡1天训完万亿NLP大模型( 四 )


腾讯发布万亿大模型训练方法:最快256卡1天训完万亿NLP大模型
文章图片
公开评测CLUE介绍
CLUE是中文最权威的自然语言理解榜单 , 主榜单总共包含了9个任务(6个分类任务和3个阅读理解任务) 。
其中6个分类任务形成了分类榜单 , 3个阅读理解任务形成了阅读理解榜单 。
这些任务是来自不同领域、不同场景的文本分类、句间关系判断、指代消解、阅读理解等任务 , 涵盖的场景和搜索、广告、推荐等业务场景高度契合 , 因此对预训练模型的通用理解能力挑战非常大 , 也对模型在不同领域、不同数据质量和数量的下游任务的知识迁移能力要求非常高 。
业界各大互联网公司和知名研究机构都在中文预训练模型上发力 , 并且在CLUE榜单上提交验证 , 竞争非常激烈 。
关键结果
如下图所示 , 我们提交的HunYuan-NLP1T模型 , 在CLUE总榜、分类榜和阅读理解榜登顶 , 远超其他团队的预训练模型 , 甚至超过人类水平 , 凸显了大模型对自然语言理解任务以及业务应用的巨大潜力 。
腾讯发布万亿大模型训练方法:最快256卡1天训完万亿NLP大模型
文章图片
预训练加速(太极AngelPTM)太极是腾讯自主研发的一站式机器学习生态服务平台 。 为AI工程师打造从数据预处理、模型训练、模型评估到模型服务的全流程高效开发工具 。 此次 , 基于高速网络基础设施建设 , 太极预训练框架为大模型的训练提供了有力保障 。
预训练框架 , 随着预训练模型的参数不断增大 , 模型训练需要的存储空间显著增加 , 如万亿模型仅模型状态需要17000多G显存 , 仅仅依靠显存严重束缚着模型参数的扩大 。
为了降低显存的压力同时扩大模型参数 , 基于Zero-Infinity的理念我们开发了太极AngelPTM , 其同Zero-Infinity一样在所有GPU之间partition模型的参数、梯度、优化器状态 , 并把参数、梯度、优化器状态offload到CPU内存 , 为了最优化的利用内存和显存进行模型状态的Cache , 太极AngelPTM引入了显存内存统一存储视角 , 同时太极AngelPTM将多流异步化做到了极致 , 在充分利用CPU和GPU进行计算的同时最大化的利用带宽进行数据传输和NCCL通信 , 使用异构流水线均衡设备间的负载 , 最大化提升整个系统的吞吐 。
在太极机器学习平台1T内存+单卡40G显存硬件环境下(由于SSD会以5倍多的速度拖慢训练 , 万亿模型并未考虑使用SSD作为三级存储) , Zero-Infinity单机最大可容纳30B模型 , 需要至少320张卡训练万亿模型 , 太极AngelPTM单机最大可容纳55B模型 , 需要192张卡就可以训练万亿模型 。 相比Zero-Infinity , 太极AngelPTM训练速度有2倍提升 , 节省40%训练资源 。
腾讯发布万亿大模型训练方法:最快256卡1天训完万亿NLP大模型
文章图片
高速网建设 , 大规模、长时间的GPU集群训练任务 , 对网络互联底座的性能、可靠性、成本等各方面都提出巨大挑战 。
为了满足AI大模型训练需求 , 腾讯打造了星脉高性能网络 , 追求网络平台的极致高性能与高可用 。
在极致高性能上 , 采用1.6T超带宽服务器接入、流量亲和性网络架构、自研高性能通信库TCCL , 构建了1.6TETHRDMA网络 , 实现了AI大模型通信性能的10倍提升 , 通信时延降低40% , 单集群规模达到2K(最大规模32K) , 基于全自研网络硬件平台网络建设成本降低30% , 模型训练成本降低30%~60% 。
在高可用保障上 , 通过全自动化部署配置核查 , 覆盖服务器NUMA、PCIE、NVSwitch、网卡、交换机数百个配置项 , 并通过实时ServiceTelemetry技术监控业务系统运行效率 , 保障大规模集群部署 , 实现性能实时监控与故障告警 。