百分点感知智能实验室:声纹识别技术发展及未来趋势研究

编者按
近年来 , 许多智能语音技术服务商开始布局声纹识别领域 , 声纹识别逐渐进入大众视野 。 随着技术的发展和在产业内的不断渗透 , 声纹识别的市场占比也逐年上升 , 但目前声纹识别需要解决的关键问题还有很多 。 本文中 , 百分点感知智能实验室梳理了声纹识别技术的发展历史 , 并分析了每一阶段的关键技术原理 , 以及遇到的困难与挑战 , 希望能够让大家对声纹识别技术有进一步了解 。
声纹(Voiceprint) , 是用电声学仪器显示的携带言语信息的声波频谱 。 人类语言的产生是人体语言中枢与发音器官之间一个复杂的生理物理过程 , 不同的人在讲话时使用的发声器官(舌、牙齿、喉头、肺、鼻腔)在尺寸和形态方面有着很大的差异 , 所以任何两个人的声纹图谱都是不同的 。 每个人的语音声学特征既有相对稳定性 , 又有变异性 , 不是绝对的、一成不变的 。 这种变异可来自生理、病理、心理、模拟、伪装 , 也与环境干扰有关 。 尽管如此 , 由于每个人的发音器官都不尽相同 , 因此在一般情况下 , 人们仍能区别不同的人的声音或判断是否是同一人的声音 。 因此声纹也就成为一种鉴别说话人身份的识别手段 。
百分点感知智能实验室:声纹识别技术发展及未来趋势研究
文章图片
图一发声器官示意图
所谓声纹识别 , 是生物识别技术的一种 , 也叫做说话人识别 , 是一项根据语音波形中反映说话人生理和行为特征的语音参数 , 自动识别语音说话者身份的技术 。 首先需要对发音人进行注册 , 即输入发音人的一段说话音频 , 系统提取特征后存入模型库中 , 然后输入待识别音频 , 系统提取特征后经过比对打分从而判断所输入音频中说话人的身份 。 从功能上来讲 , 声纹识别技术应有两类 , 分别为“1:N”和“1:1” 。 前者是判断某段音频是若干人中的哪一个人所说;后者则是确认某段音频是否为某个人所说 。 因此不同的功能适用于不同的应用领域 , 比如公安领域中重点人员布控、侦查破案、反电信欺诈、治安防控、司法鉴定等经常用到的是“1:N”功能 , 即辨认音频若干人中的哪一个人所说;而“1:1”功能则更多应用于金融领域的交易确认、账户登录、身份核验等 。
百分点感知智能实验室:声纹识别技术发展及未来趋势研究】从技术发展角度来说 , 声纹识别技术经历了三个大阶段:
第一阶段 , 基于模板匹配的声纹识别技术;
第二阶段 , 基于统计机器学习的声纹识别技术;
第三阶段 , 基于深度学习框架的声纹识别技术 。
一、模板匹配的声纹识别
下图是最早的声纹识别技术框架 , 是一种非参数模型 。 特点:基于信号比对差别 , 通常要求注册和待识别的说话内容相同 , 属于文本相关 , 因此局限性很强 。
百分点感知智能实验室:声纹识别技术发展及未来趋势研究
文章图片
图二两人对于同一数字发音与谱图
此方法将训练特征参数和测试的特征参数进行比较 , 两者之间的失真(Distortion)作为相似度 。 例如VQ(VectorQuantization矢量量化)模型和动态时间规整法DTW(DynamicTimeWarping)模型 。
DTW通过将输入待识别的特征矢量序列与训练时提取的特征矢量进行比较 , 通过最优路径匹配的方法来进行识别 。 而VQ方法则是通过聚类、量化的方法生成码本 , 识别时对测试数据进行量化编码 , 以失真度的大小作为判决的标准 。
二、基于统计机器学习的技术框架
但由于第一阶段只能用于文本相关的识别 , 即注册语音的内容需要跟识别语音内容一致 , 因此具有很强的局限性 , 同时受益于统计机器学习的快速发展 , 声纹识别技术也迎来了第二阶段 。 此阶段可细分为四个小阶段 , 即GMM>GMM-UBM/GMM-SVM>JFA>GMM-iVector-PLDA 。