百度create大会:集度搭载的最新方案,以及车路云的难题解法

作者/华卫
如果让你来评价当下AI的商业化进程 , 你会怎样形容?
在百度今天(1月10日)举办的CreateAI开发者大会上 , 百度创始人、董事长兼CEO李彦宏对此给出的关键词是「危机和希望」 。 他认为 , AI还需要在黑暗中摸索一段时间 , 但也有积极的发展 。
百度create大会:集度搭载的最新方案,以及车路云的难题解法
文章图片
(李彦宏以危机和希望为关键词 , 现场用百度AI作画平台文心一格作的画)
在商业应用层面 , AI最具代表性的方向性改变是自动驾驶 。 「L2之后 , 率先进入商用的很可能是L4 , 而不是L3 。 因为L2和L4的事故责任界定都是清楚的 , L3则不是 。 」
李彦宏还提到 , 目前百度的智能交通方案已经落地全国63个城市 , 预测2027年之前中国一线城市不再需要限购限行 , 2032年之前通行效率可以提升15%至30% , 能基本解决拥堵问题 。
百度create大会:集度搭载的最新方案,以及车路云的难题解法
文章图片
此外 , 会上百度推出了全球第一个普适支持在手机端实现全双工语音交互的方案 , 以及车路一体的端到端自动驾驶感知解决方案UniBEV , 并有现场百度技术天团的专家们详细解读了这些方案背后的技术 , 还公布了百度车路云在未来的演变路径 。
两级AEC技术+定制模型 ,
回声消除量达40分贝
在日常的汽车驾驶场景中 , 正在播报实时路况的手机导航是不能识别用户语音的 , 即使需要临时修改目的地 , 也只能停车后再重新设置 。 目前 , 世界范围内还没有一个方案能够普适地支持在手机上实现全双工的语音交互 , 即在手机播放导航提示的同时还能听清用户的指令 , 就像真人对话一样 , 可以被随时打断 , 并对新的语音指令给予反馈 。
「要实现全双工的语音交互 , 必须先做到回声消除 , 避免手机终端识别自己播放的声音 。 」
百度create大会:集度搭载的最新方案,以及车路云的难题解法
文章图片
百度语音首席架构师贾磊谈到 , 这在采用前装软件方案的音箱、车载系统上比较容易实现 , 可以通过硬件适配算法提前保证回声消除效果 。 而手机App属于纯软件后装方案 , 需要让算法适配不同型号的终端硬件 , 但手机终端款式多 , 硬件参差不齐 , 且手机上的喇叭通常距离麦克风较近 , 这些都使得手机回声消除的效果难以保证 。
针对以上问题 , 百度首先研发了两级AEC技术 。 第一级AEC是做线性消除 , 把手机上绝大多数的回声信号消除掉 , 但会有残余;第二级AEC是其训练的一个深度学习模型 , 通过把第一级AEC的输出作为输入 , 来对手机作进一步的硬件定制回声消除 。 百度方面称 , 这是目前在世界范围内全行业第一个能在手机上实现纯软件方案回声消除的技术 。
百度create大会:集度搭载的最新方案,以及车路云的难题解法
文章图片
贾磊介绍 , 这一工作机制要求「一款手机定制一个模型」 。 测试过程中 , 他们定制了将近300台手机的模型 , 并成功在所有手机上实现了回声信号消除效果 。
需要注意的是 , 手机的便携性还导致了另一个问题 , 即语音交互使用场景复杂 , 在交互中常常面临音乐、闲聊、环境噪声、内噪残余等与交互内容无关的其他信息干扰 , 语音识别难度增大 。
百度create大会:集度搭载的最新方案,以及车路云的难题解法
文章图片
为此 , 百度研发了基于SMLTA2的多场景统一预训练模型 , 用于解决噪声、用户口音和回声消除残余吸收等难题 , 在各场景下识别率相对提升超过20% 。 再配合语音语义一体化的置信技术 , 百度的技术方案可以降低错误响应 , 并支持交互过程中的引导和澄清 , 让人机交互更像人与人的交流 。