大模型产业落地关键战打响!百度首发行业大模型,外加一口气十连发( 二 )


大模型产业落地关键战打响!百度首发行业大模型,外加一口气十连发
文章图片
VIMER-UMS , 可以通过融合编码来学习图像及其相应文字的统一表征(已经用到了商品搜索) 。
VIMER-StrucTexT2.0 , 可以融合学习“语义”和“结构”信息 , 支持文档图像理解的全场景任务 。
生物计算大模型HELIX-GEM , 是融合了几何级别的自监督学习策略 , 学习化合物键长、键角等空间结构知识 , 提升化合物性质预测的效果(例如提升药物筛选成功率) 。
HELIX-Fold , 是蛋白结构分析大模型 , 在国产DCU环境 , 可以将千万级别蛋白的训练时间从AlphaFold2的7天缩短到2.6天 。
大模型产业落地关键战打响!百度首发行业大模型,外加一口气十连发
文章图片
从上面的大模型不难看出 , 飞桨文心大模型一个非常明显的标签便是“知识增强” 。
这就使得文心大模型不仅拥有解决基础问题的能力 , 在面对专有任务问题时 , 也能处理得游刃有余 。
而除了8个扩充之外 , 文心大模型还多了2个“新增”——行业大模型 。
大模型产业落地关键战打响!百度首发行业大模型,外加一口气十连发
文章图片
具体来说 , 包括联合国家电网研发的知识增强的能源行业NLP大模型国网-百度·文心 , 以及联合浦发银行研发的知识增强的金融行业NLP大模型浦发-百度·文心 。 也正如刚才所述 , 这是业内史无前例的行业大模型 。
行业大模型也是先基于文心大模型的通用能力 , 来挖掘相关行业中的知识;而后再结合实际行业特色的数据和知识 , 进行大规模无监督的联合训练 。
而且在算法层面上 , 团队针对不同行业领域设计了具有特色的算法 , 这就让训练后的行业大模型能够更好的解决实际场景中的“疑难杂症” 。
可以说 , 百度已经找到了大模型应用产业落地的关窍 。
用吴甜的话来讲:
大模型如果能学习到行业特有数据和知识 , 会更接近于行业场景的需要 , 有利于大规模产业落地 。
例如在保险行业这个真实场景中 , 一个老大难的问题便是合同数量庞大且重要 。
但在行业大模型能力的加持之下 , 保险公司可以合同中的条款文本进行自动解析识别 , 关键信息的维度可以高达39个 。
如此能力之下 , 业务的效率也是猛增 , 以前一份合同人工处理要花上30分钟的时间 , 而现在仅需1分钟!
这也更加印证了飞桨文心大模型“知识增强”标签之外的另一个特点——“产业级” 。
除此之外 , 不难看出此次这10个新大模型具有一个共性 , 那便是都基于文心大模型的通用性 。
颇有一种“一生二 , 二生三 , 三生万物”的感觉了 。
但百度飞桨要做的可不只是打造大模型这么简单 , 他们还要让大模型用着方便 。
大模型产业落地关键战打响!百度首发行业大模型,外加一口气十连发】就像我们刚才提到的“好马配好鞍” , 在这方面 , 百度飞桨所提出的是一套工具平台:
大模型开发套件大模型API服务开发平台EasyDL和BML据了解 , 开发平台EasyDL和BML能够涵盖30000多个任务 , 并且可以让数据标注量平均下降70%、效果平均提升10.7% 。
这就让开发者在不挑算法能力的情况下 , 就可以“丝滑”地去用文心大模型 。
大模型产业落地关键战打响!百度首发行业大模型,外加一口气十连发
文章图片
值得一提的是 , 与飞桨虽“异曲”却“同工”的文心大模型 , 也是共享飞桨生态的升级 , 同步发布了一个生态系统——旸谷大模型创意与探索社区 。
(旸谷在古书、神话中是指“日出的地方” 。 )