深度揭秘技术创新:全球首个知识增强千亿大模型是怎样炼成的( 二 )


但鹏城-百度·文心的训练任务给飞桨带来全新挑战:一方面 , 鹏城-百度·文心的模型结构设计引入诸多小形状的张量计算 , 导致层间计算量差异较大 , 流水线负载不均衡;另一方面 , “鹏城云脑II”的自有软件栈需要深度学习框架高效深度适配 , 才能充分发挥其集群的领先算力优势 。
针对以上挑战 , 并综合考虑当前主流硬件、模型的特点与发展趋势 , 飞桨设计并研发了具备更强扩展能力的端到端自适应大规模分布式训练架构(论文链接:https://arxiv.org/abs/2112.02752) 。 该架构可以针对不同的模型和硬件 , 抽象成统一的分布式计算视图和资源视图 , 并通过硬件感知细粒度切分和映射功能 , 搜索出最优的模型切分和硬件组合策略 , 将模型参数、梯度、优化状态按照最优策略分配到不同的计算卡上 , 达到节省存储、负载均衡、提升训练性能的目的 。
飞桨自适应大规模分布式训练架构使得鹏城-百度·文心的训练性能是传统分布式训练方法2.1倍 , 并行效率高达90% 。 此外 , 为进一步提高模型训练的稳定性 , 飞桨还设计了容错功能 , 可以在不中断训练的情况下自动替换故障机器 , 加强模型训练的鲁棒性 。
在推理方面 , 飞桨基于服务化部署框架PaddleServing , 通过多机多卡的张量模型并行、流水线并行等一系列优化技术 , 获得最佳配比和最优吞吐 。 通过统一内存寻址(UnifiedMemory)、算子融合、模型IO优化、量化加速等方式 , 鹏城-百度·文心的推理速度得到进一步提升 。
深度揭秘技术创新:全球首个知识增强千亿大模型是怎样炼成的
文章图片
-飞桨超大模型训练与推理
鹏城-百度·文心超强性能:60多项任务取得最好效果 , 大幅刷新小样本学习任务基准
鹏城-百度·文心究竟效果如何?目前 , 该模型已在机器阅读理解、文本分类、语义相似度计算等60多项任务中取得最好效果 。
在行业领域 , 仅利用少量标注数据甚至无需标注数据 , 就能解决新场景的任务已成为AI工业化大规模应用的关键 。 该模型在30余项小样本和零样本任务上均取得了最优成绩 , 能够实现各类AI应用场景效果的提升 , 也为产业化规模应用打开了新窗口 。
深度揭秘技术创新:全球首个知识增强千亿大模型是怎样炼成的
文章图片
鹏城-百度·文心小样本学习效果
深度揭秘技术创新:全球首个知识增强千亿大模型是怎样炼成的
文章图片
鹏城-百度·文心零样本学习效果
解决应用落地难题:百度团队首创大模型在线蒸馏技术
大模型训练、推理所消耗的资源极其昂贵和密集 。 PaddleServing已提供了超大模型的高速推理方案 , 但为了进一步打造大模型的绿色落地方案 , 降低大模型应用成本 , 研究团队提出了大模型在线蒸馏技术 。
深度揭秘技术创新:全球首个知识增强千亿大模型是怎样炼成的
文章图片
在线蒸馏技术
具体来说 , 该技术在鹏城-百度·文心学习的过程中周期性地将知识信号传递给若干个学生模型同时训练 , 从而在蒸馏阶段一次性产出多种尺寸的学生模型 。 相对传统蒸馏技术 , 该技术极大节省了因大模型额外蒸馏计算以及多个学生的重复知识传递带来的算力消耗 。
这种新颖的蒸馏方式利用了鹏城-百度·文心规模优势 , 在蒸馏完成后保证了学生模型的效果和尺寸丰富性 , 方便不同性能需求的应用场景使用 。 此外 , 研究团队还发现 , 鹏城-百度·文心与学生模型尺寸差距千倍以上 , 模型蒸馏难度极大甚至失效 。 为此 , 研究团队引入了助教模型进行蒸馏的技术 , 利用助教作为知识传递的桥梁以缩短学生模型和鹏城-百度·文心表达空间相距过大的问题 , 从而促进蒸馏效率的提升 。