我正在尝试创建自己的模型来使用LSTM识别语音。 语音是连续的,长度不一的句子,并且有语音记录。我从音频中提取了MFCC功能,并知道如何将其输入网络。
我的疑问是您如何准备成绩单。我知道我必须对模型一字不漏,但是如何使用frame同步Input和Output。
之类的资源Building Speech Dataset for LSTM binary classification
讲一个单词,可以很容易地进行一键编码。但是对于连续讲话,我该如何进行。 MFCC适用于特定时间范围,但是如何确保它们匹配。
How does LSTM convert character embedding vectors to sentence vector for sentence classification?
在这里,它们只是将向量当作单词,是我应该继续这样做还是应该做更多基于现象的事情。 (语言是古吉拉特语,不是英语,就像单词是“ઝડપી”,那么现象将是[“ઝ”,“ડ”,“પી”])。
我还可以做一些事情,例如找到平均现象长度,将mfcc帧大小设置为该长度并使用该长度,这可行吗?
任何资源都会受到赞赏,因为我可以找到并获得有关模型本身而不是如何准备成绩单的大多数研究论文。