腾讯发布万亿大模型训练方法:最快256卡1天训完万亿NLP大模型

允中发自凹非寺
量子位|公众号QbitAI
编者按:
万亿大模型的落地成本 , 被打下来了:
现在 , 最快用256张卡 , 1天内就能训练完成 , 成本直接降至原来的1/8 。
这项最新进展 , 来自腾讯混元AI大模型 。
这也是国内首个低成本、可落地的NLP万亿大模型 。
具体技术详情 , 一起来看研究团队怎么说~
腾讯发布万亿大模型训练方法:最快256卡1天训完万亿NLP大模型
文章图片
随着AI技术不断发展 , AI大模型(又称预训练模型)逐渐成为产业中最火热的技术名词 。
预训练模型是指预先训练好 , 具有相对通用性的“一套算法” , 具有“巨量数据、巨量算力、巨量模型”等特性 。 大模型通过学习样本数据的内在规律和表达层次 , 进化出接近、超越人类的智能程度 , 具备分析推理能力 , 能够识别文字、图像和声音 。
今年4月 , 腾讯首次对外披露混元AI大模型(下文简称“HunYuan”)研发进展 。 HunYuan集CV(计算机视觉)、NLP(自然语言理解)、多模态理解能力于一体 , 先后在MSR-VTT , MSVD等五大权威数据集榜单中登顶 , 实现跨模态领域的大满贯 。 今年5月 , 更是CLUE(中文语言理解评测集合)三个榜单同时登顶 , 一举打破三项纪录 。
近日 , HunYuan又迎来全新进展 , 推出国内首个低成本、可落地的NLP万亿大模型 , 并再次登顶自然语言理解任务榜单CLUE 。
如此来势汹汹的HunYuan , 是如何在短时间内完成性能迭代?落地到具体的应用场景是如何发挥其效能的呢?
我们一起来看看它背后的技术揭秘 。
概述预训练的提出使得人工智能进入全新的时代 , 引发了学术界和工业界的研究热潮 。
随着算力的发展 , 模型容量持续提升 , 模型通用性和泛化能力也更强 , 研究大模型成为了近两年的趋势 。 国内外头部科技公司均有布局 , 发布了若干千亿规模以上的大模型 。
然而 , 面对参数量进一步扩大 , 业界并没有在高速网络、训练/推理框架、模型算法和落地应用等方面有全面深入的公开性研究 。
基于腾讯强大的底层算力和低成本高速网络基础设施 , HunYuan依托腾讯领先的太极机器学习平台 , 推出了HunYuan-NLP1T大模型并登顶国内最权威的自然语言理解任务榜单CLUE 。
该模型作为业界首个可在工业界海量业务场景直接落地应用的万亿NLP大模型 , 先后在热启动和课程学习、MoE路由算法、模型结构、训练加速等方面研究优化 , 大幅降低了万亿大模型的训练成本 。
用千亿模型热启动 , 最快仅用256卡在一天内即可完成万亿参数大模型HunYuan-NLP1T的训练 , 整体训练成本仅为直接冷启动训练万亿模型的1/8 。
腾讯发布万亿大模型训练方法:最快256卡1天训完万亿NLP大模型
文章图片
此外 , 业界基于万亿大模型的应用探索极少 , 对此腾讯研发了业界首个支持万亿级MoE预训练模型应用的分布式推理和模型压缩套件“太极-HCFToolKit” , 实现了无需事先从大模型蒸馏为中小模型进而推理 , 即可使用低成本的分布式推理组件/服务直接进行原始大模型推理部署 , 充分发挥了超大预训练模型带来的模型理解和生成能力的跃升 。
目前HunYuan-NLP1T大模型已在腾讯多个核心业务场景落地 , 并带来了显著的效果提升 。
HunYuan协同了腾讯预训练研发力量 , 旨在打造业界领先的AI预训练大模型和解决方案(如下图) , 以统一的平台 , 实现技术复用和业务降本 , 支持更多的场景和应用 。 当前HunYuan完整覆盖NLP大模型、CV大模型、多模态大模型、文生图大模型及众多行业/领域任务模型 。