百分点感知智能实验室:声纹识别技术发展及未来趋势研究( 四 )


N.Dehak提出了一个更加宽松的假设:既然声纹信息与信道信息不能做到完全独立 , 那就用一个超向量子空间对两种信息同时建模 。 即用一个子空间同时描述说话人信息和信道信息 。 这时候 , 同一个说话人 , 不管怎么采集语音 , 采集了多少段语音 , 在这个子空间上的映射坐标都会有差异 , 这也更符合实际的情况 。 这个既模拟说话人差异性又模拟信道差异性的空间称为全因子空间(TotalFactorMatrix) , 每段语音在这个空间上的映射坐标称作身份向量(IdentityVector,i-vector) , i-vector向量通常维度也不会太高 , 一般在400-600左右 。
i-vector方法采用一个空间来代替这两个空间 , 这个新的空间可以成为全局差异空间 , 它既包含了说话人之间的差异又包含了信道间的差异 。 所以i-vector的建模过程在GMM均值超矢量中不严格区分说话人的影响和信道的影响 。 这一建模方法动机来源于Dehak的又一研究:JFA建模后的信道因子不仅包含了信道效应也夹杂着说话人的信息 。
i-vector中TotalVariability的做法(M=m+Tw) , 将JFA复杂的训练过程以及对语料的复杂要求 , 瞬间降到了极致 , 尤其是将Length-VariableSpeech映射到了一个fixed-andlow-dimension的vector(IdentityVector , 即i-vector)上 。 于是 , 所有机器学习的算法都可以用来解决声纹识别的问题了 。
现在 , 主要用的特征是i-vector 。 这是通过高斯超向量基于因子分析而得到的 。 是基于单一空间的跨信道算法 , 该空间既包含了说话人空间的信息也包含了信道空间信息 , 相当于用因子分析方法将语音从高位空间投影到低维 。
可以把i-vector看作是一种特征 , 也可以看作是简单的模型 。 最后 , 在测试阶段 , 我们只要计算测试语音i-vector和模型的i-vector之间的consine距离 , 就可以作为最后的得分 。 这种方法也通常被作为基于i-vector说话人识别系统的基线系统 。
i-vector简洁的背后是它舍弃了太多的东西 , 其中就包括了文本差异性 , 在文本无关识别中 , 由于注册和训练的语音在内容上的差异性比较大 , 因此我们需要抑制这种差异性 。 但在文本相关识别中 , 我们又需要放大训练和识别语音在内容上的相似性 , 这时候牵一发而动全身的i-vector就显得不是那么合适了 。 虽然i-vector在文本无关声纹识别上表现非常好 , 但在看似更简单的文本相关声纹识别任务上 , i-vector表现得却并不比传统的GMM-UBM框架更好 。
i-vector的出现使得说话人识别的研究一下子简化抽象为了一个数值分析与数据分析的问题:任意的一段音频 , 不管长度怎样 , 内容如何 , 最后都会被映射为一段低维度的定长i-vector 。 只需要找到一些优化手段与测量方法 , 在海量数据中能够将同一个说话人的几段i-vector尽可能分类得近一些 , 将不同说话人的i-vector尽可能分得远一些 。 并且Dehak在实验中还发现i-vector具有良好的空间方向区分性 , 即便上SVM做区分 , 也只需要选择一个简单的余弦核就能实现非常好的区分性 。
i-vector在大多数情况下仍然是文本无关声纹识别中表现性能最好的建模框架 , 学者们后续的改进都是基于对i-vector进行优化 , 包括线性区分分析(LinearDiscriminantAnalysis , LDA) , 基于概率的线性预测区分分析(ProbabilisticlinearDiscriminantAnalysis , PLDA)甚至是度量学习(MetricLearning)等 。
概率线性判别分析(PLDA)是一种信道补偿算法 , 被用于对i-vector进行建模、分类 , 实验证明其效果最好 。 因为i-vector中 , 既包含说话人的信息 , 也包含信道信息 , 而我们只关心说话人信息 , 所以才需要做信道补偿 。 我们假设训练数据语音由i个说话人的语音组成 , 其中每个说话人有j段自己不同的语音 。 那么 , 我们定义第i个人的第j条语音为Xij 。 根据因子分析 , 我们定义Xij的生成模型为: