我得到了一个公式来计算长度为n的两个实矢量a和b的Jaccard系数。
这个公式是否正确?如果我计算向量{5,3,1,0,3}和{7,1,3,2,1}的系数,我得到一个负数,我认为不允许用于度量。)
(5 * 7 + 3 * 1 + 1 * 3 + 0 * 2 + 3 * 1)= 44
44 p /(12 + 14 - 44)= -22/9答案 0 :(得分:1)
如Jaccard最初定义的那样,相似系数是交点的大小除以联合的大小。由于两者都是大小,显然不可能产生负面结果。
您在问题中显示的内容有点像位矢量的Jaccard相似度。但是,为此您需要将分母左侧的每个术语平方,通常显示如下:
我怀疑缺乏平方是导致你目前看到的问题的原因 - 没有它,我们通常可以预期分母是负面的。更具体地说,对于一个术语,(A + B) - (A * B)
为正,A或B中的至少一个必须小于1.