标签: machine-learning signal-processing speech-recognition k-means mfcc
我从语音信号开始进行性别评估,并完成了MFCC特征提取。所以现在我尝试从这些功能中估算性别。但是我有一个音频文件的帧,我为每个帧提取了13个系数。我正考虑将K Means algroithm用于男性或女性分类,但我不仅有1个载体。例如,每帧有250帧和13个系数。所以我有250x13阵列。如何在分为250帧的音频文件上使用K Means?我应该对每一帧进行分类吗?我希望我能正确解释我的问题。非常感谢你。