使用Python的说话人识别系统

时间:2018-04-22 07:53:59

标签: python voice-recognition mfcc gmm

我尝试使用Python制作扬声器识别(不是语音但是说话人)系统。我已经提取了列车音频文件和测试音频文件的mfcc功能,并为每个功能制作了gmm模型。我不确定如何比较模型来计算相似度得分,我可以对系统进行编程以验证测试音频。我挣扎了4天才完成这件事。如果有人能提供帮助,我们会很高兴。

1 个答案:

答案 0 :(得分:0)

从问题中我可以理解,你正在描述cocktail party problem的一个方面 我发现a whitepaper使用修改后的迭代维纳滤波器和多层感知器神经网络来解决您的问题,该网络可以将扬声器分成不同的通道。

有趣的是,鸡尾酒会的问题可以在ocatve的一行中解决:[W,s,v]=svd((repmat(sum(x.*x,1),size(x,1),1).*x)*x');
您可以在this stackoverflow post

上阅读更多相关信息