应用错误收集

K均值指标

时间：2014-07-15 22:05:22

标签： scikit-learn k-means

我已经阅读了scikit学习文档并用Google搜索无效。我有2000个数据集，如图所示聚集。如图所示，某些集群是错误的，这里是红色集群。我需要一个度量方法来验证所有2000个集群集。几乎所有scikit学习中的指标都需要基本的真值等级标签，我认为我没有或者可以拥有这些标签。我有30天的每小时交通流量，我正在使用k-means将它们聚类。这些线是集群中心。我该怎么办？我是否在正确的轨道上？！水平轴是小时，0到23，垂直轴是交通流量，因此数据点代表30天内该小时的交通流量，k = 3。

3 个答案:

答案 0 :(得分：1)

SciKit学习没有方法，除了剪影系数，对于内部评估，据我所知，我们可以为这些问题实施DB Index（Davies-Bouldin）和Dunn Index。这篇文章为k-means提供了很好的指标：

http://www.iaeng.org/publication/IMECS2012/IMECS2012_pp471-476.pdf

答案 1 :(得分：0)

Silhouette系数和Calinski-Harabaz指数现在都在scikit-learn中实现，并且可以帮助您在没有事实真相的情况下评估聚类结果。

此处有更多详情： http://scikit-learn.org/stable/modules/clustering.html

在这里： http://scikit-learn.org/stable/modules/generated/sklearn.metrics.silhouette_samples.html#sklearn.metrics.silhouette_samples

答案 2 :(得分：-1)

您是否看过凝聚聚类，然后是子部分（改变指标）： http://scikit-learn.org/stable/modules/clustering.html#varying-the-metric

对我来说，它似乎与你想要做的非常相似。