微信开源「派大星」:4000元游戏电脑能带动7亿参数GPT

金磊发自凹非寺
量子位报道|公众号QbitAI
一听到训练大模型 , 是不是第一感觉就是、、?
但我说 , 一台的游戏电脑 , 谁都能训练上亿参数的大模型呢?
别不信 , 这是真的 。
而这就归功于团队 , 最近推出的一款利器—— 。
微信开源「派大星」:4000元游戏电脑能带动7亿参数GPT
文章图片
但不是你印象中的那个派大星昂~
微信AI的派大星(PatricStar) , 其实是一个超大预训练模型 。
微信开源「派大星」:4000元游戏电脑能带动7亿参数GPT
文章图片
要知道 , 在这个领域中 , 以往都是独占鳌头 。
此次微信一出手 , 可以说是直接秒杀了微软:
在8xV100和240GBCPU内存节点上 , 训练了一个参数的GPT模型 , 是当前最佳方案DeepSpeed模型规模上限的 。
但毕竟针对的是大模型 , “烧钱”是出了名的难题 。
而微信AI的派大星就显得相当的了 。
即使在700美元的个人游戏电脑上 , 它也可以训练一个的GPT模型!
现在 , 人人都可以了!
微信开源「派大星」:4000元游戏电脑能带动7亿参数GPT
文章图片
划重点:已开源!
大规模预训练模型 , 已然成为技术发展中的新潮流 。
以BERT、GPT为代表的预训练模型的出现 , 可以说是自然语言处理(NLP)领域的里程碑事件 。
NLP , 正在进入了 。
微信开源「派大星」:4000元游戏电脑能带动7亿参数GPT
文章图片
那么像派大星这样的训练系统 , 真的有必要吗?
答案是肯定的 。
从来看 , 预训练模型(PTM)通常使用一个堆叠了多个Transformer结构神经网络 , 在大量文本上预训练通用语言特征表示 。
然后 , 通过微调将学到的知识转移到不同的下游任务 。
预训练模型使用大量来自互联网的文本数据 , 可以捕获自然语言的细微特征 , 并在下游任务上获得非常惊艳的表现效果 。
于是 , AI社区的共识是采用预训练模型 , 作为特定NLP任务的主干 , 而不是在与任务相关的数据集上从头开始训练模型 。
预训练模型的力量源泉 , 是它拥有的数以亿计的参数规模 , 这对运行它的计算和内存资源都提出了巨大的要求 。
因此 ,。
所有发表百亿级模型训练成果的团队 , 所采用的的设备都是如DGX型号的AI超级计算机 。
它的一个节点就配置了8张GPU , 1.5TB内存 , 3.84TBSSDs , 还使用NVLink作为高速通信网络 。
目前最大的预训练模型Megatron-Turing , 包含5300亿参数 , 其预训练过程就是在560个DGXA100节点的集群上完成的 。
这种配置在大多数工业界数据中心都是遥不可及的 。
而通过像派大星这样的训练系统 , 便可以让这种“遥不可及”变得“唾手可得” , 让大模型可以普惠到更多的开发人员 , 实现PTM的“共同富裕” 。
再从来看 , 预训练模型的预训练的过程是极其烧钱和有害环境的 。
微信开源「派大星」:4000元游戏电脑能带动7亿参数GPT
文章图片
比如 , 从头训练型一次万亿级别的预训练模型要烧掉154万人民币 , 耗电所产生的碳排放相当于数十辆小汽车从出厂到报废的碳排放总和 。
出于社会利益最大化考虑 , 预训练技术未来的产业形态 , 应该是中心化的:
少部分财力雄厚的机构 , 用超大规模集群承担预训练阶段的计算和环境开销;大多数从业人员在小规模、相对简陋的硬件上针对自身业务进行微调 。
前者只需要相对少量的计算和碳排放 , 而后者的诉求却被当前的预训练软件所严重忽略 。
现如今 , 派大星的到来 , 让大规模预训练模型的训练变得了起来 。