标签: keras speech-recognition
我正在尝试使用Keras为ASR建立LSTM网络。我正在使用TIMIT数据集进行训练,但是预处理中存在问题。 预处理后,输入和目标的序列长度不同。
输入是使用MFCC处理的特征提取矩阵,目标是分成多个音素的句子。因此,输入序列比目标序列长得多,可能超过10倍。
我想输入和目标的序列长度在ASR训练中应该相同,所以我认为我应该匹配它们,但我不知道该怎么做。我应该复制目标的长度并将其扩展为输入的长度吗?