标签: python cluster-analysis metrics unsupervised-learning
我尝试使用聚集聚类对某些数据进行聚类,但我不知道哪个数量的聚类是完美的。这是我的结果:
该数据库由65个要识别的类组成。基尼值= 0.265。
答案 0 :(得分:1)
请勿使用这些度量来选择k。因为它们与已知的解决方案相比。如果您有已知的解决方案,为什么还要选择一个近似值?
可能只是一个巧合。但是您可能想研究这些方程,也许它们在这一点上确实是一致的。
对于AMI,NMI,ARI等,最大值是与您现有的标记解决方案具有最大一致性的k。