我已经阅读了scikit学习文档并用Google搜索无效。我有2000个数据集,如图所示聚集。如图所示,某些集群是错误的,这里是红色集群。我需要一个度量方法来验证所有2000个集群集。几乎所有scikit学习中的指标都需要基本的真值等级标签,我认为我没有或者可以拥有这些标签。我有30天的每小时交通流量,我正在使用k-means将它们聚类。这些线是集群中心。我该怎么办?我是否在正确的轨道上?!水平轴是小时,0到23,垂直轴是交通流量,因此数据点代表30天内该小时的交通流量,k = 3。
答案 0 :(得分:1)
SciKit学习没有方法,除了剪影系数,对于内部评估,据我所知,我们可以为这些问题实施DB Index(Davies-Bouldin)和Dunn Index。这篇文章为k-means提供了很好的指标:
http://www.iaeng.org/publication/IMECS2012/IMECS2012_pp471-476.pdf
答案 1 :(得分:0)
Silhouette系数和Calinski-Harabaz指数现在都在scikit-learn中实现,并且可以帮助您在没有事实真相的情况下评估聚类结果。
此处有更多详情: http://scikit-learn.org/stable/modules/clustering.html
答案 2 :(得分:-1)
您是否看过凝聚聚类,然后是子部分(改变指标): http://scikit-learn.org/stable/modules/clustering.html#varying-the-metric
对我来说,它似乎与你想要做的非常相似。