GMM-HMM

时间:2017-01-08 02:31:37

标签: matlab computer-vision cluster-computing speech-recognition gaussian

我想了解在隐马尔可夫模型中使用高斯混合模型。

假设我们有语音数据,我们正在识别5种语音(HMM的状态)。例如,'X'是语音样本,而O =(s,u,h,b,a)(考虑到字符而不是简单的电话)是HMM状态。现在,我们使用3种混合物的高斯混合模型,使用以下等式估算每个州的高斯密度(抱歉由于声誉点而无法上传图像)。

P(X | O)= sum(i = 1-> 3)w(i)* P(X | mu(i),var(i))(考虑单变量分布)

因此,我们首先使用EM算法从训练数据中学习GMM参数。 然后使用这些参数来学习HMM参数,一旦完成,我们在测试数据上使用它们。 总之,在本例中,我们正在学习3 * 3 * 5(3种混合物的重量,均值和方差以及5种状态)参数。 我的理解是否正确?

1 个答案:

答案 0 :(得分:1)

您的理解大多是正确的,但参数的数量通常较大。均值和方差是向量,而不是数字。对于完全协方差GMM的罕见情况,方差可以是矩阵。每个载体通常含有39个组分,用于13个倒谱+13个三角洲+13个三角洲 - 三角洲。

因此,对于您学习的每部手机

39 + 39 + 1 = 79 parameters

参数总数

79 * 5 = 395

而且,通常手机由3个左右的状态组成,而不是来自单个状态。所以你只有GMM的395 * 3或1185参数。然后,您需要HMM的转换矩阵。参数数量很大,这就是为什么培训需要大量数据的原因。