gpu|512张GPU炼出10万亿参数巨模型!这个模型今年双十一已经用上了

博雯 发自 凹非寺
量子位 报道 | 公众号 QbitAI
超大规模的预训练模型的参数量级又双叒被刷爆了!
100000亿!
(没错,是10万亿)
而且还是用512张GPU,训练了10天搞出来的!
gpu|512张GPU炼出10万亿参数巨模型!这个模型今年双十一已经用上了
文章插图
这就是达摩院最新推出的超大规模通用性人工智能大模型,M6-10T。
它在电商、制造业、文学艺术、科学研究等领域都有着多模态、多任务的能力,在各自现实场景的下游任务中也频频出现。
而且还能做到即开即用,你今年的双十一背后就有M6-10T的身影。
少量资源快速训练大模型不过剁手节的事可以先放一边,问题关键是:M6-10T到底是怎么使用少量资源完成对极限规模模型的训练的?
要知道,之前微软的DeepSpeed MoE模型,也是使用了512张A100才完成了3.5万亿参数的训练。
而自家在5个月前推出的万亿级参数的M6,则是用480块GPU训练的。
所以,512张GPU怎么就放下了10万亿参数?
这就要提到达摩院自研的分布式框架Whale。
gpu|512张GPU炼出10万亿参数巨模型!这个模型今年双十一已经用上了
文章插图
基于这一框架,M6模型可以使用粒度可控的CPU offload方法,灵活地选择offload的模型层。
也就是说,可以不用将所有的权重offload到CPU memory中,而选择保留部分权重在GPU memory上进行计算,以进一步地提高GPU利用率。
放下了参数,下一步就是提高训练效率。
M6-10T模型采用了一种叫做共享解除(Pseudo-to-Real)的新的训练策略:
gpu|512张GPU炼出10万亿参数巨模型!这个模型今年双十一已经用上了
文章插图
这一策略分为两个阶段。
第一阶段,利用跨层参数共享机制快速构建并训练小模型Pseudo Giant。
参数少得多的Pseudo Giant不受内存的限制,因此可以用大批量训练来加速。
再配合上专家拆分和合并的机制,最终只需要使用256张GPU即可快速训练一个Pseudo Giant。
第二阶段则解除共享参数的联系,得到新的Real Giant模型。
“共享”阶段训练好的模型层的参数会为Real Giant的每一层提供初始化,大模型即可在训练好的小模型的基础上继续优化。
在下游评估中可以看到,从头开始训练Real Giant模型非常耗时,而Pseudo Giant训练的收敛速度比Real Giant训练有5倍左右的优势:
gpu|512张GPU炼出10万亿参数巨模型!这个模型今年双十一已经用上了
文章插图
△在48个NVIDIA V100 GPU设备上训练这一机制不仅能够使M6-10T在样本量的维度上具有更快的收敛速度,也能将模型的训练速度提升7倍以上。
而相对于之前的M6-MoE和M6-T,采用了新的训练策略的M60-10T迷惑度(perplexity)更低,模型更优越:
gpu|512张GPU炼出10万亿参数巨模型!这个模型今年双十一已经用上了
文章插图
可以说,之前使用480GPU的万亿参数模型M6,如果采用现在的方法,那就只需要64张GPU就能完成训练。
双十一背后的模型而除了算法层面的价值,M6-10T一经推出就能够投入使用。
比如说即将来临的双十一中,你或许就能发现这些AI设计款的衣服上架。
gpu|512张GPU炼出10万亿参数巨模型!这个模型今年双十一已经用上了
文章插图
△基于M6设计生成的服装款式
这就是大模型带来的创造力。
在结合了StyleGAN后,M6能够在少样本情况下自动生成图像,且保持良好的细节质量和可编辑性。
而且与传统的设计款式图不同,M6生成的还是更接近实物的照片效果。
在手机淘宝和支付宝中,也会有基于M6智能生成的内容文案:
gpu|512张GPU炼出10万亿参数巨模型!这个模型今年双十一已经用上了
文章插图
同时,大模型的多模态特征提取能力,也能进行商品属性标签补充,用于进行认知召回。