如何准备语音识别数据集

时间:2015-12-26 16:41:14

标签: speech-recognition recurrent-neural-network unsupervised-learning

我需要训练双向LSTM模型来识别离散语音(从0到9的个别数字)我已经录制了100个发言者的语音。接下来我该怎么办? (假设我将它们拆分为单个.wav文件,每个文件包含一个数字)我将使用mfcc作为网络的功能。

此外,如果我打算使用支持CTC的库(连接主义时间分类),我想知道数据集的差异

1 个答案:

答案 0 :(得分:4)

您可以使用here

提供的答案/指导

根据您用于创建LSTM(pybrain,theano,keras)的库,您可以查看他们的文档。

我建议使用Theano(二进制LSTM link)或Keras(Tutorial),因为它们很容易理解并且有很好的文档记录。

希望这会有所帮助。