标签: machine-learning set similarity metrics precision-recall
我寻找一个函数,它将根据单独的元素为任意两个集分配一个实数。我需要它对集合的交集程度敏感,但要惩罚集合是否有无关项目。换句话说,我想在同一指标中计算召回率和精确度。
答案 0 :(得分:0)
您要找的是Jaccard index:
J(A, B) := |A ∩ B| / |A ∪ B|
因此,它计算两个集合共有多少元素,并将其除以唯一元素的数量。
如果两组相同,则J(A,B)最大为1。如果他们不共享任何元素,则最小值为零。您可能希望为两个集合都为空的情况分配一个数字。