百分点感知智能实验室：声纹识别技术发展及未来趋势研究( 二 ) 编者按近年来

1.高斯混合模型（GMM）
特点：采用大量数据为每个说话人训练（注册）模型。注册要求很长的有效说话人语音。
高斯混合模型（GaussianMixtureModel,GMM）是统计学中一个极为重要的模型，其中机器学习、计算机视觉和语音识别等领域均有广泛的应用，甚至可以算是神经网络和深度学习普及之前的主流模型。
GMM之所以强大，在于其能够通过对多个简单的正态分布进行加权平均，从而用较少的参数模拟出十分复杂的概率分布。
在声纹识别领域，高斯混合模型的核心设定是：将每个说话人的音频特征用一个高斯混合模型来表示。采用高斯混合模型的动机也可以直观的理解为：每个说话人的声纹特征可以分解为一系列简单的子概率分布，例如发出的某个音节的概率、该音节的频率分布等。这些简单的概率分布可以近似的认为是正态分布（高斯分布）。但是由于GMM规模越庞大，表征力越强，其负面效应也会越明显：参数规模也会等比例膨胀，需要更多的数据来驱动GMM的参数训练才能得到一个更加通用(或泛化)的GMM模型。
假设对维度为50的声学特征进行建模， GMM包含1024个高斯分量，并简化多维高斯的协方差为对角矩阵，则一个GMM待估参数总量为1024(高斯分量的总权重数)+1024×50(高斯分量的总均值数)+1024×50(高斯分量的总方差数)=103424 ，超过10万个参数需要估计。
这种规模的变量就算是将目标用户的训练数据量增大到几个小时，都远远无法满足GMM的充分训练要求，而数据量的稀缺又容易让GMM陷入到一个过拟合(Over-fitting)的陷阱中，导致泛化能力急剧衰退。因此，尽管一开始GMM在小规模的文本无关数据集合上表现出了超越传统技术框架的性能，但它却远远无法满足实际场景下的需求。
2.高斯混合背景模型（GMM-UBM）和支持向量机（GMM-SVM）
特点：使用适应模型的方法减少建模注册所需要的有效语音数据量，但对跨信道分辨能力不强。

文章图片
图三GMM-UBM）
由于前边使用GMM模型对数据需求量很大，因此2000年前后， DAReynolds的团队提出了一种改进的方案：既然没法从目标用户那里收集到足够的语音，那就换一种思路，可以从其他地方收集到大量非目标用户的声音，积少成多，我们将这些非目标用户数据(声纹识别领域称为背景数据)混合起来充分训练出一个GMM ，这个GMM可以看作是对语音的表征，但由于它是从大量身份的混杂数据中训练而成，因此不具备表征具体身份的能力。
它对语音特征在空间分布的概率模型给出了一个良好的预先估计，我们不必再像过去那样从头开始计算GMM的参数（GMM的参数估计是一种称为EM的迭代式估计算法），只需要基于目标用户的数据在这个混合GMM上进行参数的微调即可实现目标用户参数的估计，这个混合GMM就叫通用背景模型(UniversalBackgroundModel ， UBM) 。

文章图片
图四模型训练原理
UBM的一个重要优势在于它是通过最大后验估计(MaximumAPosterior ， MAP)的算法对模型参数进行估计，避免了过拟合的发生。 MAP算法的另外一个优势是我们不必再去调整目标用户GMM的所有参数(权重、均值、方差) ，只需要对各个高斯成分的均值参数进行估计，就能实现最好的识别性能。这样待估的参数一下减少了一半多(103424->51200) ，越少的参数也意味着更快的收敛，不需要那么多的目标用户数据即可完成对模型的良好训练。