为什么sklearn在实现rand索引时需要真正的标签?

时间:2017-11-09 18:49:26

标签: python scikit-learn cluster-analysis

我一直在研究评估我的聚类的准确性,兰德指数似乎是在文献中非常受欢迎的。它是通过对每个聚类中的每个项目进行成对比较并根据四个标准为它们分配得分来计算的:真阳性,真阴性,假阳性和假阴性或a,b,c,d。 Rand得分的计算方法是将真阳性和真阴性的总和除以上述所有类别的总和。

我的问题是,为什么sklearn需要正确的标签来计算兰德指数得分?

1 个答案:

答案 0 :(得分:0)

Rand索引等需要真正的标签(确切地说,它们需要两个标签集,并计算它们达成一致的程度)。所以sklearn实现没有任何问题。

如果label1(x)== label1(y)AND label2(x)== label2(y),则对(x,y)为正。 其他三个案例从转向不平等开始。