应用错误收集

如何准备语音识别数据集

时间：2015-12-26 16:41:14

标签： speech-recognition recurrent-neural-network unsupervised-learning

我需要训练双向LSTM模型来识别离散语音（从0到9的个别数字）我已经录制了100个发言者的语音。接下来我该怎么办？（假设我将它们拆分为单个.wav文件，每个文件包含一个数字）我将使用mfcc作为网络的功能。

此外，如果我打算使用支持CTC的库（连接主义时间分类），我想知道数据集的差异

1 个答案:

答案 0 :(得分：4)

您可以使用here

提供的答案/指导

根据您用于创建LSTM（pybrain，theano，keras）的库，您可以查看他们的文档。

我建议使用Theano（二进制LSTM link）或Keras（Tutorial)，因为它们很容易理解并且有很好的文档记录。

希望这会有所帮助。