隐马尔可夫模型 - 识别音素

时间:2012-11-16 14:22:15

标签: statistics signal-processing speech-recognition hidden-markov-models

我正在开发一个识别音素的项目,以便能够识别是否有人说“是”或“否”。

到目前为止,在项目中,我使用了零交叉来识别这个人在说什么,这种方法非常有效并且看起来很简单。但是,该项目需要一些改进,必须使用隐马尔可夫模型进行开发。

我的问题是:

我想开发一个隐马尔可夫模型,而不是删除我已经完成的工作。即我通过计算零交叉的数量以及块的总和来剥离不值得考虑的数据。

我不明白我需要哪些数据来训练HMM才能识别这些音素。 E.g。

通过零交叉,我确定了:

是 - 过零开始低,然后值增加

否 - 零交叉开始低,然后不随价值增加。

我可以训练我的HMM算法,以便解释这些值吗?

或者有人可以提出一种方法,我可以训练HMM,以便能够识别样本中输入的单词吗?

希望有人可以提供帮助:)!

2 个答案:

答案 0 :(得分:2)

  

我可以训练我的HMM算法,以便解释这些值吗?

是的,绝对是

  

或者有人可以提出一种方法,我可以训练HMM,以便能够识别样本中输入的单词吗?

您只需将特征文件中的过零率与MFCC功能(如第14个特征)一起使用,并使用任何标准HMM培训工具包(如CMUSphinx或HTK)来训练HMM并使用它进行解码。有关更多信息,请参阅

http://cmusphinx.sourceforge.net/wiki/mfcformat

http://speech-research.com/htkSearch/index.php?ID=297039

http://speech-research.com/SRTxt2User/index.html

答案 1 :(得分:0)

自动音素分割是一个棘手的问题,因此我将提供一些我喜爱的资源,以不同的细节层次触及该主题。

本文: http://www.seas.upenn.edu/~jan/Files/Iscas99Speech.pdf

本文: http://www.ll.mit.edu/publications/journal/pdf/vol08_no2/8.2.1.languageidentification.pdf

此资源非常好: http://research.microsoft.com/pubs/118769/Book-Chap-HuangDeng2010.pdf

本书为音素识别提供了一些很好的例子: http://www.amazon.com/Speech-Recognition-Theory-C-Implementation/dp/0471977306/

这本书也很不错: http://www.amazon.com/Statistical-Methods-Recognition-Language-Communication/dp/0262100665/

书籍价格昂贵,但它们是值得的(在我看来)