百分点感知智能实验室:声纹识别技术发展及未来趋势研究( 三 )


GMM-UBM系统框架 , 是GMM模型的一个推广 , 是用于解决当前目标说话人数据量不够的问题的一种方式 。 通过收集其他说话人数据来进行一个预先的训练 。 通过MAP算法的自适应 , 将预先训练过的模型向目标说话人模型进行微调 。 这种方式可以大大减少训练所需要的样本量和训练时间(通过减少训练参数) 。
但是GMM-UBM缺乏对应于信道多变性的补偿能力 , 因此后来WMCampbell将支持向量机(SupportVectorMachine , SVM)引入了GMM-UBM的建模中 , 通过将GMM每个高斯分量的均值单独拎出来 , 构建一个高斯超向量(GaussianSuperVector , GSV)作为SVM的样本 , 利用SVM核函数的强大非线性分类能力 , 在原始GMM-UBM的基础上大幅提升了识别的性能 , 同时基于GSV的一些规整算法 , 例如扰动属性投影(NuisanceAttributeProjection,NAP) , 类内方差规整(WithinClassCovarianceNormalization , WCCN)等 , 都在一定程度上补偿了由于信道易变形对声纹建模带来的影响 。
3.联合因子分析法(JFA)
特点:分别建模说话人空间、信道空间以及残差噪声 , 但每一步都会引入误差 。
在传统的基于GMM-UBM的识别系统中 , 由于训练环境和测试环境的失配问题 , 导致系统性能不稳定 。 于是PatrickKenny在05年左右提出了一个设想:既然声纹信息可以用一个低秩的超向量子空间来表示 , 那噪声和其他信道效应是不是也能用一个不相关的超向量子空间进行表达呢?
基于这个假设 , Kenny提出了联合因子分析(JointFactorAnalysis , JFA)的理论分析框架 , 将说话人所处的空间和信道所处的空间做了独立不相关的假设 , 在JFA的假设下 , 与声纹相关的信息全部可以由特征音空间(Eigenvoice)进行表达 , 并且同一个说话人的多段语音在这个特征音空间上都能得到相同的参数映射 , 之所以实际的GMM模型参数有差异 , 这个差异信息是由说话人差异和信道差异这两个不可观测的部分组成的公式如下:
M=s+c
其中 , s为说话人相关的超矢量 , 表示说话人之间的差异;c为信道相关的超矢量 , 表示同一个说话人不同语音段的差异;M为GMM均值超矢量 , 表述为说话人相关部分s和信道相关部分c的叠加 。
百分点感知智能实验室:声纹识别技术发展及未来趋势研究
文章图片
图五均值超矢量
如上图所示 , 联合因子分析实际上是用GMM超矢量空间的子空间对说话人差异及信道差异进行建模 , 从而可以去除信道的干扰 , 得到对说话人身份更精确的描述 。 JFA定义公式如下:
s=m+Vy+dZ
c=Ux
其中 , s为说话人相关的超矢量 , 表示说话人之间的差异;m为与说话人以及信道无关的均值超矢量;V为低秩的本征音矩阵;y为说话人相关因子;D为对角的残差矩阵;z为残差因子;c为信道相关的超矢量 , 表示同一个说话人不同语音段的差异;U为本征信道矩阵;x为与特定说话人的某一段语音相关的因子 。 这里的超参数集合{V , D , U}即为需要评估的模型参数 。 有了上面的定义公式 , 我们可以将均值超矢量重新改写为如下形式:
M=m+Vy+Ux+Dz
为了得到JFA模型的超参数 , 我们可以使用EM算法训练出UBM模型 , 使用UBM模型提取Baum-Welch统计量 。
尽管JFA对于特征音空间与特征信道空间的独立假设看似合理 , 但绝对的独立同分布的假设是一个过于强的假设 , 这种独立同分布的假设往往为数学的推导提供了便利 , 却限制了模型的泛化能力 。
4.基于GMM的i-vector方法及PLDA
特点:统一建模所有空间 , 进一步减少注册和识别所需语音时长 , 使用PLDA分辨说话人特征 , 但噪声对GMM仍然有很大影响 。