我正在开发一个识别音素的项目,以便能够识别是否有人说“是”或“否”。
到目前为止,在项目中,我使用了零交叉来识别这个人在说什么,这种方法非常有效并且看起来很简单。但是,该项目需要一些改进,必须使用隐马尔可夫模型进行开发。
我的问题是:
我想开发一个隐马尔可夫模型,而不是删除我已经完成的工作。即我通过计算零交叉的数量以及块的总和来剥离不值得考虑的数据。
我不明白我需要哪些数据来训练HMM才能识别这些音素。 E.g。
通过零交叉,我确定了:
是 - 过零开始低,然后值增加
否 - 零交叉开始低,然后不随价值增加。
我可以训练我的HMM算法,以便解释这些值吗?
或者有人可以提出一种方法,我可以训练HMM,以便能够识别样本中输入的单词吗?
希望有人可以提供帮助:)!
答案 0 :(得分:2)
我可以训练我的HMM算法,以便解释这些值吗?
是的,绝对是
或者有人可以提出一种方法,我可以训练HMM,以便能够识别样本中输入的单词吗?
您只需将特征文件中的过零率与MFCC功能(如第14个特征)一起使用,并使用任何标准HMM培训工具包(如CMUSphinx或HTK)来训练HMM并使用它进行解码。有关更多信息,请参阅
http://cmusphinx.sourceforge.net/wiki/mfcformat
或
答案 1 :(得分:0)
自动音素分割是一个棘手的问题,因此我将提供一些我喜爱的资源,以不同的细节层次触及该主题。
本文: http://www.seas.upenn.edu/~jan/Files/Iscas99Speech.pdf
本文: http://www.ll.mit.edu/publications/journal/pdf/vol08_no2/8.2.1.languageidentification.pdf
此资源非常好: http://research.microsoft.com/pubs/118769/Book-Chap-HuangDeng2010.pdf
本书为音素识别提供了一些很好的例子: http://www.amazon.com/Speech-Recognition-Theory-C-Implementation/dp/0471977306/
这本书也很不错: http://www.amazon.com/Statistical-Methods-Recognition-Language-Communication/dp/0262100665/
书籍价格昂贵,但它们是值得的(在我看来)