盘古|6个月火速炼成千亿参数大模型!背后是披荆斩棘的华为云哥哥们( 二 )


盘古|6个月火速炼成千亿参数大模型!背后是披荆斩棘的华为云哥哥们
文章插图
田奇:什么样的车没有油也可以跑?盘古:新能源车和自行车没有油都可以跑。当然,还有玩具车。田奇:什么是碳中和?碳排放主要来自于哪些行业?盘古:碳中和就是把人为排放的二氧化碳,通过植树造林、节能减排等形式抵消掉,从而使得释放到大气中的总碳量净值为零。目前发电和供热行业、制造和建筑业是主要的碳排放行业。……这便是他与盘古流畅且超出众人意料的对话,盘古的常识推理等能力展露无疑。田奇进一步解释道:这段话的背后盘古模型阅读和理解了大量的相关文章,通过小样本学习对意图进行识别,转化为知识库和数据库查询,并根据返回的结果,生成最终的答案。这种方式与GPT-3等仅基于端到端生成的方式不同,可以更准确地处理复杂场景,结合领域知识,具备更大的商业价值。而通过这一次的亮相,华为云盘古大模型更加详细的全貌也一并公布了出来。先观其貌,横揽AI领域四大热门方向:自然语言处理(NLP)大模型计算机视觉(CV)大模型多模态大模型科学计算大模型再闻其详,纵达业界能力之最:华为云盘古NLP大模型:是业界首个千亿参数中文语言预训练模型,预训练阶段学习了40TB中文文本数据,是最接近人类中文理解能力的AI大模型。华为云盘古CV大模型:是目前业界最大的视觉预训练模型,包含超过30亿参数。具体来说,当时盘古NLP大模型在权威的中文语言理解评测基准CLUE榜单中,总成绩及分类、阅读理解单项刷新三项榜单世界历史纪录,总成绩得分83.046。而盘古CV大模型,则在ImageNet 1?10?据集上的小样本分类精度上,达到了业界最高水平。而更为重要的,华为云盘古大模型的真·奥义,实则是直击痛点——天下苦AI开发久矣。即便到了现在,AI开发的过程,较为贴切的比喻应该是“作坊模式”,换言之,就是需要手动的工作太多、太频繁。而华为云盘古大模型所提供的方式,可以理解为工厂模式。具体来说,就是“预训练+下游微调”,这也是与目前全球主流大模型(如Bert)所匹配的一种模式,拥有极强的泛化能力。换言之,这个模型可以做到“举一反三”。……但要说上阵,真正一层的含义并不是在发布会上的首秀,而是下场去在真实场景中发挥它的作用和价值。这也是令盘古大模型团队成员们更为激动的事情。据了解,截至目前为止,华为云盘古大模型已经在多个行业,100多个场景中发光发热,包括能源、零售、金融、工业、医疗、环境、物流等等。“就很神奇”、“非常激动”。这是来自于盘古大模型的服务客户——国网重庆永川供电公司技术人员的真真实实的反应。这家公司是国内最早应用无人机电力智能巡检技术的电网企业之一。传统的无人机智能巡检AI模型开发主要面临两大挑战:一是如何对海量数据进行高效标注。二是缺陷种类多达上百种,需要数十个AI识别模型,开发成本高。而盘古CV大模型的到来,就很好地解决了这两大难题。例如在数据标注方面,盘古 CV 大模型利用海量无标注电力数据进行预训练,并结合少量标注样本微调的高效开发模式,提出了针对电力行业的预训练模型。在应用之后,样本筛选效率提升约30倍,筛选质量提升约5倍:以永川每天采集5万张高清图片为例,可节省人工标注时间 170 人天。而在模型通用性方面,结合盘古搭载的自动数据增广以及类别自适应损失函数优化策略,可以做到一个模型适配上百种缺陷。具体来说,一个模型就可以替代永川原先的20多个小模型,极大地减少了模型维护成本,平均精度提升18.4?模型开发成本降低90?在应用华为云盘古大模型的前后,效能差距之大,也难怪客户会发出如此的感叹了。披荆斩棘的科学家“哥哥们”田奇,就是在华为云盘古大模型背后披荆斩棘的“哥哥们”中的一个。田奇本科毕业于清华大学电子工程系,硕士毕业于美国德雷塞尔大学,后赴美国伊利诺伊大学香槟分校学习,师从Thomas S. Huang教授,并获得博士学位。在2002年至2019年期间,田奇历任过美国德克萨斯大学圣安东尼奥分校计算机系助理教授、副教授、和正教授。他在学术界这一呆,便是十七载。