该项目将使用SVM通过MFCC作为功能集进行说话人识别。通常,使用窗口大小(以毫秒为单位)创建MFCC系数。但是,由于扬声器讲话几秒钟,因此至少一个人可以在SVM中使用一系列MFCC。问题是如何做到这一点。通常,SVM或任何内核都将向量作为输入,但是在这种情况下,我们可以使用多个向量或矩阵来提高鲁棒性。 SVM如何学习矩阵而不是向量?
答案 0 :(得分:1)
常规方法是使用专门的数学模型来分析MFCC序列中的因素并提取说话人向量。您删除MFCC中与实际单词相关的可变性,您删除与语调相关的可变性,而只剩下与说话者相关的因素。说话者向量可以在以后使用SVM进行分析。您可以从i-vector tutorial检查详细信息。
更高级的研究使用神经网络提取说话人矢量,即所谓的d-vectors。
然后使用SVM对d矢量进行分类。