深度揭秘技术创新：全球首个知识增强千亿大模型是怎样炼成的近日

近日，百度与鹏城自然语言处理联合实验室重磅发布鹏城-百度·文心（模型版本号：ERNIE3.0Titan），该模型是全球首个知识增强的千亿AI大模型，也是目前为止全球最大的中文单体模型。
基于业界领先的鹏城实验室算力系统“鹏城云脑Ⅱ”和百度飞桨深度学习平台强强练手，鹏城-百度·文心模型参数规模超越GPT-3达到2600亿，致力于解决传统AI模型泛化性差、强依赖于昂贵的人工标注数据、落地成本高等应用难题，降低AI开发与应用门槛。目前该模型在60多项任务取得最好效果，并大幅刷新小样本学习任务基准。
鹏城-百度·文心模型如何诞生？
鹏城-百度·文心基于百度知识增强大模型ERNIE3.0全新升级，模型参数规模达到2600亿，相对GPT-3的参数量提升50% 。
【深度揭秘技术创新：全球首个知识增强千亿大模型是怎样炼成的】在算法框架上，该模型沿袭了ERNIE3.0的海量无监督文本与大规模知识图谱的平行预训练算法，模型结构上使用兼顾语言理解与语言生成的统一预训练框架。为提升模型语言理解与生成能力，研究团队进一步设计了可控和可信学习算法。
在训练上，结合百度飞桨自适应大规模分布式训练技术和“鹏城云脑Ⅱ”算力系统，解决了超大模型训练中多个公认的技术难题。在应用上，首创大模型在线蒸馏技术，大幅降低了大模型落地成本。

文章图片
-鹏城-百度·文心模型结构图
鹏城-百度·文心的可控和可信学习算法
在算法设计上，为进一步提升模型语言理解能力以及写小说、歌词、诗歌、对联等文学创作能力，研究团队提出了可控学习和可信学习算法。在可控学习方面，通过将模型预测出的文本属性和原始文本进行拼接，构造从指定属性生成对应文本的预训练数据，模型通过对该数据的学习，实现不同类型的零样本生成能力。用户可以将指定的体裁、情感、长度、主题、关键词等属性自由组合，无需标注任何样本，便可生成不同类型的文本。
在可信学习方面，针对模型生成结果与真实世界的事实一致性问题，鹏城-百度·文心通过自监督的对抗训练，让模型学习区分数据是真实的还是模型伪造的，使得模型对生成结果真实性具备判断能力，从而让模型可以从多个候选中选择最可靠的生成结果，显著提升了生成结果的可信度。

文章图片
高可信的可控生成预训练
高性能集群支撑鹏城-百度·文心训练
鹏城-百度·文心基于百度百舸集群初始化，并基于“鹏城云脑II”高性能集群训练。 “鹏城云脑Ⅱ”由鹏城实验室联合国内优势科研力量研发，是我国首个国产E级AI算力平台。
“鹏城云脑Ⅱ”于去年11月和今年7月接连两次夺得IO500总榜和10节点榜的双料世界冠军。今年5月， “鹏城云脑Ⅱ”在“MLPerftrainingV1.0”基准测试中取得了自然语言处理领域模型性能第一名和图像处理领域模型性能第二名的好成绩。今年11月， “鹏城云脑”继去年取得首届AIPerf500榜单冠军后，再次荣获排行榜冠军。多次在相关领域国际权威竞赛中斩获头名，充分展现了其优越的智能计算性能和软硬件系统协同水平，也为鹏城-百度·文心强大技术能力奠定基础。
飞桨自适应大规模分布式训练和推理“保驾护航”
超大规模模型的训练和推理给深度学习框架带来很大考验，需要利用大规模集群分布式计算才能在可接受时间内完成训练或推理的计算要求，同时面临着模型参数量单机无法加载、多机通信负载重、并行效率低等难题。早在今年4月，国产深度学习框架百度飞桨发布了4D混合并行技术，可支持千亿参数模型的高效分布式训练。