假设有4组:
S1 = {1,2,3,4};
S2 = {2,3,4};
S3 = {2,3,4,5};
S4 = {1,3,4,5};
是否有任何标准指标来表示这组4组的相似度?
感谢Jaccard方法的建议。然而,似乎成对。 如何计算整组的相似度?
答案 0 :(得分:8)
成对,您可以计算两组的Jaccard distance。它只是两组之间的距离,如果它们是{1,2,3 ...}都是单位向量的空间中的布尔矢量。
答案 1 :(得分:2)
你的问题不是很具体。但我想你的意思是他们之间的“编辑距离”?即你有多少需要改变s1才能进入s2?
查看Edit distance上的维基百科文章。
答案 2 :(得分:2)
正如托布所说,我会使用Jaccard Index,它只是交集除以集合的联合。
答案 3 :(得分:0)
你可以计算每组之间交叉的大小
答案 4 :(得分:0)
您可以计算它们之间的Euclidean distance,并从中构建dendrogram以显示相似性。