我正在尝试训练用于语音识别的lstm模型,但不知道要使用哪种训练数据和目标数据。我使用的是LibriSpeech dataset,它包含音频文件及其成绩单。此时,我知道目标数据将是转录文本向量化。至于训练数据,我正在考虑使用每个音频文件(或MFCC功能)的频率和时间。如果这是解决问题的正确方法,那么训练数据/音频将是多个数组,我如何将这些数组输入到我的lstm模型中?我需要对它们进行矢量化吗?
谢谢!
答案 0 :(得分:15)
要准备语音数据集以输入LSTM模型,您可以看到此帖子 - Building Speech Dataset for LSTM binary classification以及细分Data Preparation。
作为一个很好的例子,你可以看到这篇文章 - http://danielhnyk.cz/predicting-sequences-vectors-keras-using-rnn-lstm/。这篇文章谈到如何使用RNN预测Keras中的向量序列 - LSTM 。
我相信你会发现这篇文章(https://stats.stackexchange.com/questions/192014/how-to-implement-a-lstm-based-classifier-to-classify-speech-files-using-keras)也非常有帮助。