百分点感知智能实验室:声纹识别技术发展及未来趋势研究( 五 )


百分点感知智能实验室:声纹识别技术发展及未来趋势研究
文章图片
PLDA模型训练的目标就是输入一堆数据Xij , 输出可以最大程度上表示该数据集的参数θ=[μ,F,G,Σ] 。 由于我们现在不知道隐藏变量hi和Wij , 所以我们还是使用EM算法来进行求解 。 在PLDA中 , 我们计算两条语音是否由说话人空间中的特征hi生成 , 或者由hi生成的似然程度 , 而不用去管类内空间的差异 。 下面给出得分公式:
百分点感知智能实验室:声纹识别技术发展及未来趋势研究
文章图片
如上公式中 , n1和n2分别是两个语音的i-vector矢量 , 这两条语音来自同一空间的假设为Hs , 来自不同的空间的假设为Hd 。 其中p(n1,n2|hs)为两条语音来自同一空间的似然函数;p(n1|hd) , p(n2|hd)分别为n1和n2来自不同空间的似然函数 。 通过计算对数似然比 , 就能衡量两条语音的相似程度 。 比值越高 , 得分越高 , 两条语音属于同一说话人的可能性越大;比值越低 , 得分越低 , 则两条语音属于同一说话人的可能性越小 。
三、基于深度神经网络的技术框架
随着深度神经网络技术的迅速发展 , 声纹识别技术也逐渐采用了基于深度神经网络的技术框架 , 目前有DNN-iVector-PLDA和最新的End-2-End 。
1.基于深度神经网络(DNN)的方法(D-Vector)
特点:DNN可以从大量样本中学习到高度抽象的音素特征 , 同时它具有很强的抗噪能力 , 可以排除噪声对声纹识别的干扰 。
在论文《DeepNeuralNetworksforSmallFootprintText-DependentSpeakerVerification》中 , 作者对DNN在声纹识别中的应用做了研究 。
百分点感知智能实验室:声纹识别技术发展及未来趋势研究
文章图片
图六d-vector
DNN经过训练 , 可以在帧级别对说话人进行分类 。 在说话人录入阶段 , 使用训练好的的DNN用于提取来自最后隐藏层的语音特征 。 这些说话人特征或平均值 , 即d-vector , 用作说话人特征模型 。 在评估阶段 , 为每个话语提取d-vector与录入的说话人模型相比较 , 进行验证 。 实验结果表明基于DNN的d-vector与常用的i-vector在一个小的声音文本相关的声纹验证集上相比 , 具有更良好的性能表现 。
深度网络的特征提取层(隐藏层)输出帧级别的说话人特征 , 将其以合并平均的方式得到句子级别的表示 , 这种utterance-level的表示即深度说话人向量 , 简称d-vector 。 计算两个d-vectors之间的余弦距离 , 得到判决打分 。 类似主流的概率统计模型i-vector , 可以通过引入一些正则化方法(线性判别分析LDA、概率线性判别分析PLDA等) , 以提高d-vector的说话人区分性 。
此外 , 基于DNN的系统在噪声环境中更加稳健 , 并且在低错误拒绝上优于i-vector系统 。 最后 , d-vector-SV系统在进行安静和嘈杂的条件分别以14%和25%的相对错误率(EER)优于i-vector系统 。
2.端到端深度神经网络(End-to-End)
特点:由神经网络自动提取高级说话人特征并进行分类 。
随着端到端技术的不断发展 , 声纹识别技术也进行了相应的尝试 , 百度在论文《anEnd-to-EndNeuralSpeakerEmbeddingSystem》中提出了一种端到端的声纹识别系统 。
百分点感知智能实验室:声纹识别技术发展及未来趋势研究
文章图片
图七DeepSpeaker
DeepSpeaker是一个系统 , 所以包含的是一个说话人识别的流程 。 包括:语音前端处理+特征提取网络(模型)+损失函数训练(策略)+预训练(算法) 。
百分点感知智能实验室:声纹识别技术发展及未来趋势研究
文章图片
图八ResBlock
文中设定一个ResBlock:3*3的卷积核+Relu激活+3*3的卷积核 。