隐马尔可夫模型(HMM)中的三态手机模型

时间:2015-01-23 14:57:59

标签: speech-recognition state-machine hidden-markov-models

我想问一下HMM中三态手机模型的含义。本案例基于语音识别系统中的HMM理论。因此,该示例基于HMM中的语音声学建模。

我从期刊论文中得到了这个示例图片: http://www.intechopen.com/source/html/41188/media/image8_w.jpg

图1:声音的三态HMM / s /

所以,我的问题是:

  1. 3州是什么意思?
  2. 实际上是什么S1,S2& S3是什么意思(我知道它是州,但它代表什么?)
  3. 如何在此HMM状态下表示/ s /声音?
  4. 为什么是3?如果我们有4个,5个或更多的状态会发生什么?
  5. 如果/ s /的声音只是辅音的简单声音" s /",状态和转换的用途是什么?
  6. 你们对这个理论的例子(图解类比)有简单的解释吗?

    谢谢

    尼克

1 个答案:

答案 0 :(得分:3)

  

3州是什么意思?

描述手机S的模型由树状态组成 - S1,S2和S3。

  

实际上是什么S1,S2& S3是什么意思(我知道它是州,但它代表什么?)

S1表示电话S的开头的特征向量的概率分布,中间的S2,最后的S3。概率分布基本上是特征向量的最可能值(电话的这一部分如何发声)和变化(在变化的范围内)。

  

如何在此HMM状态下表示/ s /声音?

S声音由整个HMM表示,而不仅仅是单个状态。

  

为什么是3?如果我们有4个,5个或更多状态会发生什么?

在连续语音识别中,手机声学受到前一音素和后续音素的影响。出于这个原因,将每部手机分成3个部分更精确 - 从最初的手机过渡到稳定的中间,最后转换到下一部手机。如果手机被隔离并稳定1状态就足够了。在连续语音中也可以对单个电话使用5种状态,但它并没有大大提高准确性。

  

如果/ s /的声音只是辅音的简单声音" s /",状态和转换的用途是什么?

见上文。转换表示从一个状态移动到另一个状态的概率,基本上它模拟了电话的长度。