计算一组集合之间的相似度

时间:2010-01-09 23:09:20

标签: metrics similarity

假设有4组:

S1 = {1,2,3,4};
S2 = {2,3,4};
S3 = {2,3,4,5};
S4 = {1,3,4,5};

是否有任何标准指标来表示这组4组的相似度?

感谢Jaccard方法的建议。然而,似乎成对。 如何计算整组的相似度?

5 个答案:

答案 0 :(得分:8)

成对,您可以计算两组的Jaccard distance。它只是两组之间的距离,如果它们是{1,2,3 ...}都是单位向量的空间中的布尔矢量。

答案 1 :(得分:2)

你的问题不是很具体。但我想你的意思是他们之间的“编辑距离”?即你有多少需要改变s1才能进入s2?

查看Edit distance上的维基百科文章。

答案 2 :(得分:2)

正如托布所说,我会使用Jaccard Index,它只是交集除以集合的联合。

答案 3 :(得分:0)

你可以计算每组之间交叉的大小

答案 4 :(得分:0)

您可以计算它们之间的Euclidean distance,并从中构建dendrogram以显示相似性。