我尝试使用Tensorflow或Keras对语音数据进行RNN分类。分类器用于孤立的单词语音。也就是说,单个单词的声音将被提取到RNN进行分类,并且必须对单词声音进行分类。到目前为止,我所做的是提取声音的MFCC,并且因为每个声音具有不同的长度,所以产生的MFCC也具有不同的长度。例如,对于单词' 1'所产生的MFCC将具有(28,26)的形状,并且对于单词' 2'它将是(24,26)。语音的长度是变化的,我如何为RNN分类建模这些数据。在所有示例和教程中,输入数据具有相同的长度,但在我的情况下,输入数据具有不同的长度。如何模拟这种问题。我的X(输入)和Y(输出)变量应该是什么?