百分点感知智能实验室:声纹识别技术发展及未来趋势研究( 二 )


1.高斯混合模型(GMM)
特点:采用大量数据为每个说话人训练(注册)模型 。 注册要求很长的有效说话人语音 。
高斯混合模型(GaussianMixtureModel,GMM)是统计学中一个极为重要的模型 , 其中机器学习、计算机视觉和语音识别等领域均有广泛的应用 , 甚至可以算是神经网络和深度学习普及之前的主流模型 。
GMM之所以强大 , 在于其能够通过对多个简单的正态分布进行加权平均 , 从而用较少的参数模拟出十分复杂的概率分布 。
在声纹识别领域 , 高斯混合模型的核心设定是:将每个说话人的音频特征用一个高斯混合模型来表示 。 采用高斯混合模型的动机也可以直观的理解为:每个说话人的声纹特征可以分解为一系列简单的子概率分布 , 例如发出的某个音节的概率、该音节的频率分布等 。 这些简单的概率分布可以近似的认为是正态分布(高斯分布) 。 但是由于GMM规模越庞大 , 表征力越强 , 其负面效应也会越明显:参数规模也会等比例膨胀 , 需要更多的数据来驱动GMM的参数训练才能得到一个更加通用(或泛化)的GMM模型 。
假设对维度为50的声学特征进行建模 , GMM包含1024个高斯分量 , 并简化多维高斯的协方差为对角矩阵 , 则一个GMM待估参数总量为1024(高斯分量的总权重数)+1024×50(高斯分量的总均值数)+1024×50(高斯分量的总方差数)=103424 , 超过10万个参数需要估计 。
这种规模的变量就算是将目标用户的训练数据量增大到几个小时 , 都远远无法满足GMM的充分训练要求 , 而数据量的稀缺又容易让GMM陷入到一个过拟合(Over-fitting)的陷阱中 , 导致泛化能力急剧衰退 。 因此 , 尽管一开始GMM在小规模的文本无关数据集合上表现出了超越传统技术框架的性能 , 但它却远远无法满足实际场景下的需求 。
2.高斯混合背景模型(GMM-UBM)和支持向量机(GMM-SVM)
特点:使用适应模型的方法减少建模注册所需要的有效语音数据量 , 但对跨信道分辨能力不强 。
百分点感知智能实验室:声纹识别技术发展及未来趋势研究
文章图片
图三GMM-UBM)
由于前边使用GMM模型对数据需求量很大 , 因此2000年前后 , DAReynolds的团队提出了一种改进的方案:既然没法从目标用户那里收集到足够的语音 , 那就换一种思路 , 可以从其他地方收集到大量非目标用户的声音 , 积少成多 , 我们将这些非目标用户数据(声纹识别领域称为背景数据)混合起来充分训练出一个GMM , 这个GMM可以看作是对语音的表征 , 但由于它是从大量身份的混杂数据中训练而成 , 因此不具备表征具体身份的能力 。
它对语音特征在空间分布的概率模型给出了一个良好的预先估计 , 我们不必再像过去那样从头开始计算GMM的参数(GMM的参数估计是一种称为EM的迭代式估计算法) , 只需要基于目标用户的数据在这个混合GMM上进行参数的微调即可实现目标用户参数的估计 , 这个混合GMM就叫通用背景模型(UniversalBackgroundModel , UBM) 。
百分点感知智能实验室:声纹识别技术发展及未来趋势研究
文章图片
图四模型训练原理
UBM的一个重要优势在于它是通过最大后验估计(MaximumAPosterior , MAP)的算法对模型参数进行估计 , 避免了过拟合的发生 。 MAP算法的另外一个优势是我们不必再去调整目标用户GMM的所有参数(权重、均值、方差) , 只需要对各个高斯成分的均值参数进行估计 , 就能实现最好的识别性能 。 这样待估的参数一下减少了一半多(103424->51200) , 越少的参数也意味着更快的收敛 , 不需要那么多的目标用户数据即可完成对模型的良好训练 。