语音|【大咖开讲】杭州国芯凌云:AI语音交互在穿戴产品中的应用实践( 二 )


VAD有70uW,工作的时候只有0.7mW,怎么让更多的时候停留在VAD状态呢?杭州国芯对VAD这块专门做了非常多的研究和设计,需要尽量识别准你这个时候有没有在说话,我们在很多典型的场景做了测试,比如在办公室、在地铁、公交车、咖啡馆。在这些场景,做一个小时、半个小时的测试,70%、80%的时间都可以让让它工作在VAD待机的状态。

这颗芯片可以做唤醒,唤醒率控制在比较好的水平。同时还可以做自定义词条,比如接听电话、播放控制等。同时可以做AI降噪,也有比较好的效果。

杭州国芯可提供两个封装,一个是QFN3×3,一个是WLCSP,也是比较小。

在具体耳机应用的时候其实非常简单,就跟用一个按钮差不了太多。可以跟蓝牙共用一个麦克风,所以不会增加一个麦克风。被唤醒之后会发一个中断,用户可查询一下是什么东西唤醒就可以,所以整个过程是非常简单的。内置了Flash,也内置了晶振,外围非常精简。

针对耳机场景,如果要去做产品会有几个注意事项。

第一个是去做语音识别对声学结构是有要求的,大家千万不要用特别粗暴的方式去做这个事情。声学结构要求也不高,主要是两点,一是麦克风的密封还是要做的;二是喇叭的回声是要控制不能让喇叭的声音给漏回麦克风,这样语音识别效果就很差了。

第二个是与手机打通,唤醒词是有标准协议,HFP调语音助手。一些快捷词,蓝牙的协议也有定义,上一首、下一首包括接听电话等。通过BLE接入手机APP,同时还有小度、小爱同学、天猫精灵、Alexa等等。第三个是低功耗设计,Always ON供电,蓝牙芯片可以完全休眠。

杭州国芯今年做了几个客户,像QCY、漫步者,以及科大讯飞的iFLYPODS PY1。

然后是头盔场景的设计,怎么做听电话、怎么做导航、怎么做我想做的事情,AI语音就有非常大的帮助。这里有风噪的控制,首先声学结构一定要处理好,比如一定要有挡风的罩子,或者你的结构能够让麦克风藏起来,千万不要让麦克风直接吹风,直接吹风就搞不定了。另外是在麦克风的出口放一张防风棉,去过滤气流的直接冲击。结构搞定之后,通过一些AI的算法,就可以做一些降噪,比如你打电话的场景,可以AI降噪的算法帮你做通话降噪等。

不仅如此,杭州国芯跟一些行业内做摩托车的、电动车的都有很多的合作,做起来的效果也不错。

第三块是手表,手表+AI语音相对做得更晚一点,杭州国芯也有一些案例,一方面是唤醒语音助手,一方面增加可玩性。另外一个有意思的东西,因为现在手表功能单一,加上了AI语音后会有更多的扩展性。