能力跃升、应用下沉,百度大脑打造人工智能时代的驱动引擎

中新经纬12月29日电作为百度AI多年技术积累和业务实践的集大成 , 百度大脑已发展成为全球领先的人工智能平台 。 12月28日 , 百度CreateAI开发者大会“百度大脑论坛”举办 。 论坛围绕打造人工智能时代的驱动引擎展开探讨 , 带来了百度大脑语言与技术、语音和视觉等多项技术产品的发布 , 以及飞桨在开源算法模型、产业级模型库和企业级AI应用开发等方面的全新升级 。
百度技术委员会主席吴华在论坛上表示 , 经过11年的发展 , 百度已形成了完整的语言与知识技术布局 , 包括知识图谱、语言理解与生成技术和应用系统等 。 随后 , 吴华带来了三大技术产品的发布:全球首个知识增强超大模型鹏城-百度·文心 , 全球最大中文跨模态生成模型ERNIEViLG , 以及首个百亿参数中英对话预训练生成模型PLATO-XL , 实现了知识增强大模型、跨模态文图生成、人机对话等领域的世界领先 。
能力跃升、应用下沉,百度大脑打造人工智能时代的驱动引擎
文章图片
特别是全球首个千亿知识增强的大模型鹏城—百度·文心 , 得益于鹏城实验室的算力系统“鹏城云脑Ⅱ”和飞桨深度学习平台的强强联手 , 解决了超大模型训练的多个公认技术难题 , 使训练效率大幅提升 , 模型效果更优 。 鹏城-百度·文心已经在机器阅读理解、文本分类、语义相似度计算等60多项任务取得最好效果 , 并在30余项小样本和零样本任务上刷新基准 。
基于百度的语言与知识技术 , 百度也面向各行业开放了语言与知识开放平台 。 不仅包含开源数据集“千言”和知识生产平台“解语” , 还研发了面向应用的能力引擎平台和知识中台 , 以及智能文档分析平台、智能对话定制平台、智能创作平台、翻译开放平台和内容审核平台等场景定制平台 。
语音和语言天生更接近 , 因此 , 把语音识别模型和语义模型进行一体化后的准确率和交互成功率会大幅提升 。 百度语音首席架构师贾磊介绍了百度多模态语音交互的最新进展 。 百度提出的基于历史信息抽象的流式截断Confomer建模技术——SMLTA2 , 解决了传统的自相关技术在进行长句识别时的计算爆炸问题和存储爆炸问题 , 也很好地解决了注意力模型的焦点丢失问题 。
能力跃升、应用下沉,百度大脑打造人工智能时代的驱动引擎
文章图片
SMLTA2通过Decoder到Encoder各层的注意力特征选择机制来引入反馈 , 使得最外层识别结果信息可以直接作用于编码器内部的每一层的编码过程 , 通过历史信息抽象充分提取有效特征信息 , 显著改善了Transformer模型从NLP领域应用到语音识别领域面临的各种问题 。 SMLTA2的这种全新的端到端建模方法 , 是对传统Encoder-Decoder结构的端到端建模的结构性创新 。
最后 , 贾磊还介绍了SMLTA的实际商业落地情况 。 浦发银行在全国多个营业厅上线了语音交互系统 , 其中位于上海外滩的银行网点语音交互识别率测试达到93.51% , 语音交互已经由完全不可用变成基本可用 。
百度视觉技术部总监丁二锐重点介绍了计算机视觉在智能视频创作中的最新进展 。 现阶段 , 视频内容生产正在由UGC(用户生成内容)向AIGC(AI生产内容)转变 。
智能视频创作是一个多技术交叉融合的领域 , 对于一个创作者而言 , 同时掌握视觉生成、多模态、3D图形学并不现实 , 但百度智能视频制作技术兼顾内容创意和视频功能创作 , 不仅实现了对人脸、人体的精细处理和环境的再塑造 , 在创作方法上 , 改善存量视频并获取新增视频 , 保障了视频的充足展现和分发 。
丁二锐表示 , 智能视频创作领域目前呈现蓬勃发展的态势 , 技术的发展带来了生产工具的变革 , 一旦与其他生产要素结合 , 将带来无尽的想象力 。