启英泰伦何云鹏:降低AI语音应用门槛 与合作伙伴共享开放生态
集微网消息近年来 , 随着互联网、5G和Wi-Fi等技术的快速发展 , 智能家居行业已经从最初的“单点智能”走向“情景智能” 。 此外 , 随着智能语音方案的日益成熟 , 语音交互的市场需求不断打开 , 智能车载、智能穿戴、智能照明等领域潜力也在快速释放 。
作为国内离线语音AI芯片领域的“先行者” , 自成立至今的近7年间 , 启英泰伦每一代产品的推出都将智能语音推向了新的高度 。 如今 , 启英泰伦又推出了第三代智能语音AI芯片 , 全面覆盖高性能、低成本端侧语音和端云融合语音等应用 。 为了进一步了解这款芯片 , 集微网采访到启英泰伦创始人兼CEO何云鹏 , 双方围绕公司第三代智能语音芯片、智能语音行业及公司发展等内容进行了一次深入交流 。
1、当前 , 智能语音在场景应用中的挑战主要有哪些?
如果与图像识别相比 , 语音识别在算力上的要求显然低很多 。 然而 , 在实际应用中 , 算力只是一方面 , 智能语音在算法上的要求是非常高的 。 因为在实际场景中 , 不仅要听得清楚 , 还需听得明白 。
文章图片
就听得清楚而言 , 智能语音面临的挑战主要源于场景的复杂性 。 在其应用场景中 , 往往充斥着各种噪声 , 包括稳态的噪声和非稳态的噪声 。 比如 , 在家居场景 , 厨房厨电的烟气噪声常常高达七八十分贝 , 此外 , 还有电视、破壁机、扫地机器人的声音 , 多人议论的声音等 。 在会场环境中 , 周围的声音往往非常嘈杂 , 还会有高音喇叭的声音等 。 从上述例子可以感受到 , 噪声场景是极其复杂的 。
【启英泰伦何云鹏:降低AI语音应用门槛 与合作伙伴共享开放生态】听得清楚主要与环境因素关联 , 而听得明白又是另一重挑战 。 中国地域辽阔 , 存在许多不同语系 , 各地方言更是数不胜数 。 再加上每个人的声音、口音 , 以及表达方式差异甚大 , 想要听明白这么复杂的语音内容 , 其中的困难可想而知 。 从发展时间上看 , 智能语音的应用不过十多年 , 而人类进化则至少历经几十万年 , 可见这是一个极具挑战的事业 。
然而 , 在实际应用中 , 用户对智能语音的要求极高 , 对于一个能听会说的设备 , 常以机器人 , 甚至超人的标准对待 。 在人耳也不易听清的嘈杂环境中 , 会希望语音设备能听清;人耳很难同时听懂两个以上人说话 , 但要求语音设备能听懂 。 此外 , 很少有人能听懂各地的方言口音 , 但各地方的人会要求设备听得懂该地方言 , 甚至土话 。
2、第三代智能语音芯片在哪些方面进行了迭代升级?
第三代智能语音芯片是启英泰伦历经三年潜心研发后推出的 。 相较上一代产品 , 这款芯片创下“算力更高、高度集成和算法新高”的“三高”记录 , 全面覆盖高性能、低成本端侧语音和端云融合语音等应用 。
启英泰伦智能语音芯片从第一代发展至第三代 , 可以看到清晰的传承与进化脉络 。 第一代BNPU实现的是端侧语音识别 , 是行业首款集成神经网络处理器的语音AI芯片 , 也是离线语音产业应用兴起的标志 。 第二代系列芯片CI1102/CI1103及CI1122芯片则集成了第二代BNPU , 不仅实现了离线语音识别功能 , 还能实现离线声纹识别和命令词自学习等个性化的功能 。
文章图片
与上一代产品相比 , 第三代BNPU作了大量技术迭代 。 除继承第二代的语音识别、声纹识别外 , 还支持了基于深度学习的降噪技术(深度降噪) , 人声分离技术(深度分离) , 命令词自学习2.0版本技术 , 以及行业首次突破性的离线NLP技术 。