什么是度量来衡量任何两个集合的相似性

时间:2017-07-14 22:42:12

标签: machine-learning set similarity metrics precision-recall

我寻找一个函数,它将根据单独的元素为任意两个集分配一个实数。我需要它对集合的交集程度敏感,但要惩罚集合是否有无关项目。换句话说,我想在同一指标中计算召回率和精确度。

1 个答案:

答案 0 :(得分:0)

您要找的是Jaccard index

J(A, B) := |A ∩ B| / |A ∪ B|

因此,它计算两个集合共有多少元素,并将其除以唯一元素的数量。

如果两组相同,则J(A,B)最大为1。如果他们不共享任何元素,则最小值为零。您可能希望为两个集合都为空的情况分配一个数字。