我的任务是发言人验证。
我的任务是计算两个音频语音之间的相似性,然后与阈值进行比较。 例如:两个音频之间的相似度得分为70%,阈值为50%。因此,发言者是同一个人。
演讲与文字无关,可以是任何对话。
我已经尝试使用MFCC,GMM进行说话人识别任务,但这项任务有所不同,只需比较两个音频特征就可以得到相似度。我不知道哪个功能对于说话人验证有用,哪种算法可以帮助我计算两种模式之间的相似度得分。希望得到你们的建议,
非常感谢。
答案 0 :(得分:1)
现在最先进的是xvectors:
Deep Neural Network Embeddings for Text-Independent Speaker Verification
Kaldi的实施是here。