所以可以说我有50000行,每行有10000列左右,它们都是true或false。要查看变量A与另一个变量B的相似程度,我可以采用Jaccard Index,AB /(AB + Ab + aB)且AB = A和B均为true,Ab = A为true,B为false,而aB = A为假,B为真。在这个特定的数据集中,我发现按真实总和的倒数来缩放数据集中每一行的影响可以提供更好的Jaccard Index结果。
我想知道我还能走多远。考虑以下数据片段
ROW ABCDE
001 10010
002 01010
003 10010
004 01010
005 00101
006 00101
Jaccard索引将使A和B的相似度为0,而A和C的相似度为零,因为它们都不共享记录。但是,直观地讲,A和B应该具有更高的相似性,因为它们都在D = 1和E = 0的行中,而变量C则仅在D = 0和E = 1的行中。
是否有措施将这一点考虑在内?或有关我可能要开始寻找的任何建议?