聚类算法性能检查未绘制数据

时间:2018-03-26 15:34:29

标签: python machine-learning scikit-learn cluster-analysis hierarchical-clustering

我正在使用 Sci-kit 学习库的Kmeans Clustring算法,我的数据维度是 169 ,这就是我无法将结果可视化的原因聚类

有没有办法衡量算法的性能?

其次,我有数据标签,我想用测试数据集测试学习模型,但我不确定Kmeans算法给集群的标签是否与我拥有的标签一致。

1 个答案:

答案 0 :(得分:0)

有可视化高维数据的方法。您可以对某些尺寸进行采样,使用PCA组件,MDS,tSNE,平行坐标等等。

如果您甚至只是阅读维基百科关于聚类的文章,那么有一个关于评估的部分,包括监督评估和无监督评估。但是这种评估的结果可能非常误导......

请记住,如果你有标签数据,监督方法应该总是胜过没有标签的无监督方法:他们不知道要找什么 - 有理由相信每个聚类都发生在与一些标签对齐。特别是,在大多数数据中,会有许多合理的聚类来捕获数据的不同方面。