将神经网络应用于MFCC用于可变长度语音段

时间:2014-02-08 10:53:29

标签: matlab neural-network speech-recognition mfcc

我目前正在尝试创建和训练神经网络,以使用MFCC进行简单的语音分类。

目前,我正在为每个样本使用26个系数,总共有5个不同的类 - 这是五个不同的单词,具有不同数量的音节。

虽然每个样本长达2秒,但我不确定如何处理用户可以非常缓慢或非常快速地发音的情况。例如,在1秒内说出的“电视”一词产生的系数与在两秒钟内说出的字不同。

非常感谢有关如何解决这个问题的任何建议!

1 个答案:

答案 0 :(得分:3)

  

我目前正在尝试创建和训练神经网络,以使用MFCC进行简单的语音分类。

简单的神经网络没有输入长度不变性,也不允许分析时间序列。

对于像一系列MFCC帧这样的时间序列分类,您可以使用具有时间不变性的分类器。例如,您可以使用神经网络结合隐马尔可夫模型(ANN-HMM),高斯混合模型与隐马尔可夫模型(GMM-HMM)或递归神经网络(RNN)。 RNN的Matlab实现是here。 Theano的实施也是available。您可以在Google中找到这些结构的详细说明。

语音识别不是一件容易实现的事情,最好使用现有的软件,如CMUSphinx