如何解释Python聚类得分?

时间:2018-11-15 11:55:21

标签: python cluster-analysis metrics unsupervised-learning

我尝试使用聚集聚类对某些数据进行聚类,但我不知道哪个数量的聚类是完美的。这是我的结果:Graph shows lot of Measuring Values in percentage on y axis and the number of Clusters on x axis

该数据库由65个要识别的类组成。基尼值= 0.265。

  1. 应为集群数选择什么?也许与班数相同?
  2. 完整性和同质性与v度量的交点是什么意思?
  3. 什么是调整后的共同信息得分中的最大值?

1 个答案:

答案 0 :(得分:1)

  1. 请勿使用这些度量来选择k。因为它们与已知的解决方案相比。如果您有已知的解决方案,为什么还要选择一个近似值?

  2. 可能只是一个巧合。但是您可能想研究这些方程,也许它们在这一点上确实是一致的。

  3. 对于AMI,NMI,ARI等,最大值是与您现有的标记解决方案具有最大一致性的k。