Question

我想了解在隐马尔可夫模型中使用高斯混合模型。

假设我们有语音数据，我们正在识别5种语音（HMM的状态）。例如，'X'是语音样本，而O =（s，u，h，b，a）（考虑到字符而不是简单的电话）是HMM状态。现在，我们使用3种混合物的高斯混合模型，使用以下等式估算每个州的高斯密度（抱歉由于声誉点而无法上传图像）。

P（X | O）= sum（i = 1-> 3）w（i）* P（X | mu（i），var（i））（考虑单变量分布）

因此，我们首先使用EM算法从训练数据中学习GMM参数。然后使用这些参数来学习HMM参数，一旦完成，我们在测试数据上使用它们。总之，在本例中，我们正在学习3 * 3 * 5（3种混合物的重量，均值和方差以及5种状态）参数。我的理解是否正确？

Answer 1

您的理解大多是正确的，但参数的数量通常较大。均值和方差是向量，而不是数字。对于完全协方差GMM的罕见情况，方差可以是矩阵。每个载体通常含有39个组分，用于13个倒谱+13个三角洲+13个三角洲 - 三角洲。

因此，对于您学习的每部手机

39 + 39 + 1 = 79 parameters

参数总数

79 * 5 = 395

而且，通常手机由3个左右的状态组成，而不是来自单个状态。所以你只有GMM的395 * 3或1185参数。然后，您需要HMM的转换矩阵。参数数量很大，这就是为什么培训需要大量数据的原因。