K均值指标

时间:2014-07-15 22:05:22

标签: scikit-learn k-means

我已经阅读了scikit学习文档并用Google搜索无效。我有2000个数据集,如图所示聚集。如图所示,某些集群是错误的,这里是红色集群。我需要一个度量方法来验证所有2000个集群集。几乎所有scikit学习中的指标都需要基本的真值等级标签,我认为我没有或者可以拥有这些标签。我有30天的每小时交通流量,我正在使用k-means将它们聚类。这些线是集群中心。我该怎么办?我是否在正确的轨道上?!水平轴是小时,0到23,垂直轴是交通流量,因此数据点代表30天内该小时的交通流量,k = 3。

image

3 个答案:

答案 0 :(得分:1)

SciKit学习没有方法,除了剪影系数,对于内部评估,据我所知,我们可以为这些问题实施DB Index(Davies-Bouldin)和Dunn Index。这篇文章为k-means提供了很好的指标:

http://www.iaeng.org/publication/IMECS2012/IMECS2012_pp471-476.pdf

答案 1 :(得分:0)

Silhouette系数和Calinski-Harabaz指数现在都在scikit-learn中实现,并且可以帮助您在没有事实真相的情况下评估聚类结果。

此处有更多详情: http://scikit-learn.org/stable/modules/clustering.html

在这里: http://scikit-learn.org/stable/modules/generated/sklearn.metrics.silhouette_samples.html#sklearn.metrics.silhouette_samples

答案 2 :(得分:-1)

您是否看过凝聚聚类,然后是子部分(改变指标): http://scikit-learn.org/stable/modules/clustering.html#varying-the-metric

对我来说,它似乎与你想要做的非常相似。