应用错误收集

如何对MFCC系数向量进行排序以进行说话人识别？

时间：2019-04-03 21:00:34

标签： speech-recognition svm

该项目将使用SVM通过MFCC作为功能集进行说话人识别。通常，使用窗口大小（以毫秒为单位）创建MFCC系数。但是，由于扬声器讲话几秒钟，因此至少一个人可以在SVM中使用一系列MFCC。问题是如何做到这一点。通常，SVM或任何内核都将向量作为输入，但是在这种情况下，我们可以使用多个向量或矩阵来提高鲁棒性。 SVM如何学习矩阵而不是向量？

1 个答案:

答案 0 :(得分：1)

常规方法是使用专门的数学模型来分析MFCC序列中的因素并提取说话人向量。您删除MFCC中与实际单词相关的可变性，您删除与语调相关的可变性，而只剩下与说话者相关的因素。说话者向量可以在以后使用SVM进行分析。您可以从i-vector tutorial检查详细信息。

更高级的研究使用神经网络提取说话人矢量，即所谓的d-vectors。

然后使用SVM对d矢量进行分类。