是否有比Jaccard Index更高级的二进制变量相似性方法?

时间:2018-10-28 12:47:24

标签: statistics boolean analysis

所以可以说我有50000行,每行有10000列左右,它们都是true或false。要查看变量A与另一个变量B的相似程度,我可以采用Jaccard Index,AB /(AB + Ab + aB)且AB = A和B均为true,Ab = A为true,B为false,而aB = A为假,B为真。在这个特定的数据集中,我发现按真实总和的倒数来缩放数据集中每一行的影响可以提供更好的Jaccard Index结果。

我想知道我还能走多远。考虑以下数据片段

 ROW ABCDE
 001 10010
 002 01010
 003 10010
 004 01010
 005 00101
 006 00101

Jaccard索引将使A和B的相似度为0,而A和C的相似度为零,因为它们都不共享记录。但是,直观地讲,A和B应该具有更高的相似性,因为它们都在D = 1和E = 0的行中,而变量C则仅在D = 0和E = 1的行中。

是否有措施将这一点考虑在内?或有关我可能要开始寻找的任何建议?

0 个答案:

没有答案