研究院|ChatGPT爆火,国内研发进展如何?

◎本报采访人员 刘园园
这段时间 , 一款名叫ChatGPT的人工智能聊天系统就像平地起春雷 , 突然刷爆网络 。
“从目前普遍的对话感受来看 , ChatGPT的最大亮点就在于其优秀的意图识别与语言理解能力 , 这令人意识到人工智能的交互能力已经实现了跨越式进展 。 ”易观智慧院高级分析师陈晨评价 。
有问必答 , 侃侃应对 。 这种神奇的人机互动体验 , 勾起人们绞尽脑汁向ChatGPT提问的热情 , 并为其带来惊人的用户量:该系统在两个多月前由美国人工智能研究公司OpenAI推出 , 今年1月便已达到1亿月活跃用户 , 用户增长速度堪称史无前例 。
这款产品大受欢迎 , 其重要幕后功臣是被业内称为预训练模型的技术 。 面对ChatGPT的爆火 , 国内科技机构和企业纷纷“亮剑” 。 据最新消息 , 中国版ChatGPT将于下个月与公众见面 。
参数规模从几百万狂飙至几千亿
“目前 , 预训练技术是人工智能研究的重要突破口 。 ”阿里研究院未来技术中心负责人苏中解读 , 传统的研究方法中 , 标注成本一直是阻碍人工智能算法推向更大数据集合的障碍 , 而预训练技术不依赖数据标注 , 就可以训练出一个大规模深度学习模型 。
科技日报采访人员了解到 , 由于不需要数据标注 , 预训练模型往往可以使用更大的数据集 , 因而可以选择更大的模型规模——这就催生了预训练大模型 。
“与以往的人工神经网络相比 , 预训练大模型最大的不同在于它规模足够大 , 深度学习网络的层数多、连接多、参数多 。 ”IDEA研究院(粤港澳大湾区数字经济研究院)认知计算与自然语言研究中心讲席科学家张家兴接受采访人员采访时介绍 , 2012年前后的深度学习网络只有几百万参数;2018年前后主流的预训练模型达到1亿参数;目前被证明非常有效的大规模预训练模型已有几千亿参数 , 短短几年时间提升了几千倍 。
量变引起质变 。 苏中分析 , 在对预训练模型各种不同的技术评测中 , 算法性能展示了一个规律:数据规模越大、预训练模型参数越多 , 算法输出精度往往也越高 。
除了规模大以外 , 张家兴谈到 , 目前的预训练大模型由于采用了新的结构模型 , 非常适合并行训练 。 同时 , 在训练方式上 , 人工神经网络的预训练任务类似“解题” , 比如把一句话的某个词或前半句去掉 , 让预训练模型利用海量大数据对句子进行恢复 , 这样训练下去 , 预训练模型的“解题”能力就会越来越好 。 而且 , 在大语言模型的基础上 , 引入指令学习 , 可以远超模型微调带来的收益 。 在此基础上 , 人类的反馈可以帮助模型更好地理解人类意图和接收信息 , 人机对话也就越来越流畅 。
“ChatGPT在底层数据、核心技术、用户体验等各方面都可以说是里程碑式的人工智能产品 。 ”旷视研究院基础科研负责人张祥雨表示 , ChatGPT的核心技术是人工智能语言大模型 , 其关键是如何让人工智能模型具备逻辑推理能力 , 以及如何让人工智能学习全互联网的知识 。 这些ChatGPT基本都做到了 , 因此在决策和知识环节有了很大的突破 。
国内多家科技机构已布局相关领域
据外媒报道 , 多家国外科技巨头正重金投入预训练模型和人工智能生成内容(AIGC)赛道 。 采访人员了解到 , 国内已有不少科技机构和企业布局相关领域 。
张家兴告诉采访人员 , IDEA研究院认知计算与自然语言研究中心在此方向上布局已久 , 该中心拥有国内最大的开源模型体系——封神榜 , 已开源的98个模型正在全力支持中国AIGC的发展 , 探索研发适配各个领域的个性化可定制模型 , 支持全部自然语言处理(NLP)任务 。