我有两个语音音频文件。每个都是通过电话通话记录的,它们的长度不同(第一个文件长3秒,第二个文件长5秒)。我想测量两个文件的相似性。请注意,我对语音信号中的文本内容不感兴趣(即NO Speech to Text)。我需要测量相似度并获得分数或百分比。
我发现很少有工具可以进行音频指纹分析,但我发现几乎所有这些工具都是针对音乐音频文件的,并且在演讲时表现不佳。
答案 0 :(得分:0)
音频指纹不应该用于查找相似性,当您的音频或音频片段完全相同时,应使用音频指纹。
您可能需要收集一组功能,如梅尔频率倒谱系数(MFFCs),并使用一种分类方法,如HNN告诉您相似性(努力工作)lol