我想使用动态时间扭曲比较两个音频录制的两个特征向量(当然我先做所有必要的预处理)。我的程序应以百分比形式输出两个录音之间的相似性。例如,100%意味着两个录音完全相同,录音越多,我得到的数字越少。我该如何解决这个问题? DTW只给出了路径的长度或转换的成本,我不知道如何将其中一个数字转换为百分比值。
答案 0 :(得分:5)
我不知道通过百分比测量的信号之间的任何距离度量。如果含义为100%,那么必须有0%的含义。所以首先你需要问自己:0%是什么意思?
对于DTW,我很确定没有已建立的最小距离转换为“百分比匹配”。如果必须,则需要定义一个启发式数量,它是最小DTW距离的函数。
编辑:实际上,如果你有两个有限长度的录音,你可以定义一个最长的距离。这将是一条路径的距离(如果查看成本矩阵)一直向下然后向下,或者一直向下然后向右。最佳路径,即完美匹配,沿着主对角线向下移动。
一个简单的想法:如果使用(0,1)(1,0)(1,1)作为步骤候选,您可以使用(0,1)和(1,0)所采取的步数作为一种不好的方法。这个度量肯定有最大值和最小值,因此它可以映射到某个理想的范围,如0-100%。