我是机器学习领域的新手。当前,我正在尝试基于任何音频文件的MFCC,delta,delta delta和Mel频谱系数实现音频语言检测系统。这些功能是使用librosa提取的。 Librosa返回MFCC的2D矩阵。问题是我想在高斯混合模型上对它们进行训练。 Sci-kit库采用(n_samples, n_features)
格式的输入,但是我有(n_samples, n_mfcc, n_time)
返回的librosa.features.mfcc()
形式的D矩阵。如何为GMM提供3D输入?
还有办法让我将上述所有4个特征发送到模型中吗?