盘古|6个月火速炼成千亿参数大模型！背后是披荆斩棘的华为云哥哥们( 二 ) 芯片|五朵云|手机业务|徐直军

文章插图
田奇：什么样的车没有油也可以跑？盘古：新能源车和自行车没有油都可以跑。当然，还有玩具车。田奇：什么是碳中和？碳排放主要来自于哪些行业？盘古：碳中和就是把人为排放的二氧化碳，通过植树造林、节能减排等形式抵消掉，从而使得释放到大气中的总碳量净值为零。目前发电和供热行业、制造和建筑业是主要的碳排放行业。……这便是他与盘古流畅且超出众人意料的对话，盘古的常识推理等能力展露无疑。田奇进一步解释道：这段话的背后盘古模型阅读和理解了大量的相关文章，通过小样本学习对意图进行识别，转化为知识库和数据库查询，并根据返回的结果，生成最终的答案。这种方式与GPT-3等仅基于端到端生成的方式不同，可以更准确地处理复杂场景，结合领域知识，具备更大的商业价值。而通过这一次的亮相，华为云盘古大模型更加详细的全貌也一并公布了出来。先观其貌，横揽AI领域四大热门方向：自然语言处理（NLP）大模型计算机视觉（CV）大模型多模态大模型科学计算大模型再闻其详，纵达业界能力之最：华为云盘古NLP大模型：是业界首个千亿参数中文语言预训练模型，预训练阶段学习了40TB中文文本数据，是最接近人类中文理解能力的AI大模型。华为云盘古CV大模型：是目前业界最大的视觉预训练模型，包含超过30亿参数。具体来说，当时盘古NLP大模型在权威的中文语言理解评测基准CLUE榜单中，总成绩及分类、阅读理解单项刷新三项榜单世界历史纪录，总成绩得分83.046。而盘古CV大模型，则在ImageNet 1?10?据集上的小样本分类精度上，达到了业界最高水平。而更为重要的，华为云盘古大模型的真·奥义，实则是直击痛点——天下苦AI开发久矣。即便到了现在，AI开发的过程，较为贴切的比喻应该是“作坊模式”，换言之，就是需要手动的工作太多、太频繁。而华为云盘古大模型所提供的方式，可以理解为工厂模式。具体来说，就是“预训练+下游微调”，这也是与目前全球主流大模型（如Bert）所匹配的一种模式，拥有极强的泛化能力。换言之，这个模型可以做到“举一反三”。……但要说上阵，真正一层的含义并不是在发布会上的首秀，而是下场去在真实场景中发挥它的作用和价值。这也是令盘古大模型团队成员们更为激动的事情。据了解，截至目前为止，华为云盘古大模型已经在多个行业，100多个场景中发光发热，包括能源、零售、金融、工业、医疗、环境、物流等等。“就很神奇”、“非常激动”。这是来自于盘古大模型的服务客户——国网重庆永川供电公司技术人员的真真实实的反应。这家公司是国内最早应用无人机电力智能巡检技术的电网企业之一。传统的无人机智能巡检AI模型开发主要面临两大挑战：一是如何对海量数据进行高效标注。二是缺陷种类多达上百种，需要数十个AI识别模型，开发成本高。而盘古CV大模型的到来，就很好地解决了这两大难题。例如在数据标注方面，盘古 CV 大模型利用海量无标注电力数据进行预训练，并结合少量标注样本微调的高效开发模式，提出了针对电力行业的预训练模型。在应用之后，样本筛选效率提升约30倍，筛选质量提升约5倍：以永川每天采集5万张高清图片为例，可节省人工标注时间 170 人天。而在模型通用性方面，结合盘古搭载的自动数据增广以及类别自适应损失函数优化策略，可以做到一个模型适配上百种缺陷。具体来说，一个模型就可以替代永川原先的20多个小模型，极大地减少了模型维护成本，平均精度提升18.4?模型开发成本降低90?在应用华为云盘古大模型的前后，效能差距之大，也难怪客户会发出如此的感叹了。披荆斩棘的科学家“哥哥们”田奇，就是在华为云盘古大模型背后披荆斩棘的“哥哥们”中的一个。田奇本科毕业于清华大学电子工程系，硕士毕业于美国德雷塞尔大学，后赴美国伊利诺伊大学香槟分校学习，师从Thomas S. Huang教授，并获得博士学位。在2002年至2019年期间，田奇历任过美国德克萨斯大学圣安东尼奥分校计算机系助理教授、副教授、和正教授。他在学术界这一呆，便是十七载。