百分点感知智能实验室：声纹识别技术发展及未来趋势研究( 五 ) 编者按近年来

文章图片
PLDA模型训练的目标就是输入一堆数据Xij ，输出可以最大程度上表示该数据集的参数θ=[μ,F,G,Σ] 。由于我们现在不知道隐藏变量hi和Wij ，所以我们还是使用EM算法来进行求解。在PLDA中，我们计算两条语音是否由说话人空间中的特征hi生成，或者由hi生成的似然程度，而不用去管类内空间的差异。下面给出得分公式：

文章图片
如上公式中， n1和n2分别是两个语音的i-vector矢量，这两条语音来自同一空间的假设为Hs ，来自不同的空间的假设为Hd 。其中p(n1,n2|hs)为两条语音来自同一空间的似然函数；p(n1|hd) ， p(n2|hd)分别为n1和n2来自不同空间的似然函数。通过计算对数似然比，就能衡量两条语音的相似程度。比值越高，得分越高，两条语音属于同一说话人的可能性越大；比值越低，得分越低，则两条语音属于同一说话人的可能性越小。
三、基于深度神经网络的技术框架
随着深度神经网络技术的迅速发展，声纹识别技术也逐渐采用了基于深度神经网络的技术框架，目前有DNN-iVector-PLDA和最新的End-2-End 。
1.基于深度神经网络（DNN）的方法（D-Vector）
特点：DNN可以从大量样本中学习到高度抽象的音素特征，同时它具有很强的抗噪能力，可以排除噪声对声纹识别的干扰。
在论文《DeepNeuralNetworksforSmallFootprintText-DependentSpeakerVerification》中，作者对DNN在声纹识别中的应用做了研究。

文章图片
图六d-vector
DNN经过训练，可以在帧级别对说话人进行分类。在说话人录入阶段，使用训练好的的DNN用于提取来自最后隐藏层的语音特征。这些说话人特征或平均值，即d-vector ，用作说话人特征模型。在评估阶段，为每个话语提取d-vector与录入的说话人模型相比较，进行验证。实验结果表明基于DNN的d-vector与常用的i-vector在一个小的声音文本相关的声纹验证集上相比，具有更良好的性能表现。
深度网络的特征提取层（隐藏层）输出帧级别的说话人特征，将其以合并平均的方式得到句子级别的表示，这种utterance-level的表示即深度说话人向量，简称d-vector 。计算两个d-vectors之间的余弦距离，得到判决打分。类似主流的概率统计模型i-vector ，可以通过引入一些正则化方法(线性判别分析LDA、概率线性判别分析PLDA等) ，以提高d-vector的说话人区分性。
此外，基于DNN的系统在噪声环境中更加稳健，并且在低错误拒绝上优于i-vector系统。最后， d-vector-SV系统在进行安静和嘈杂的条件分别以14％和25％的相对错误率（EER）优于i-vector系统。
2.端到端深度神经网络（End-to-End）
特点：由神经网络自动提取高级说话人特征并进行分类。
随着端到端技术的不断发展，声纹识别技术也进行了相应的尝试，百度在论文《anEnd-to-EndNeuralSpeakerEmbeddingSystem》中提出了一种端到端的声纹识别系统。

文章图片
图七DeepSpeaker
DeepSpeaker是一个系统，所以包含的是一个说话人识别的流程。包括：语音前端处理+特征提取网络（模型）+损失函数训练（策略）+预训练（算法）。

文章图片
图八ResBlock
文中设定一个ResBlock：3*3的卷积核+Relu激活+3*3的卷积核。