即使用户的统计分布差异很大,如何将其分组?

时间:2019-01-06 09:11:33

标签: machine-learning statistics cluster-analysis


您能否解释即使用户的统计分布差异很大也如何对它们进行分组?
这似乎是一个不受监督的问题。我知道K-means通常用于聚类,但是当用户的统计分布差异很大时,K-means真的有效吗?
谢谢。

1 个答案:

答案 0 :(得分:1)

当所有聚类的均值均具有相同的误差分布时,即,如果所有聚类都遵循N(mu_j,eps),则K-means确实最有效。

但是至少有100种聚类算法。只需选择一种更适合您的数据即可。例如,DBSCAN仅假定每个群集都是密集的,并且群集被低密度的间隙隔开。它不能很好地对重叠的高斯聚类进行聚类,但是对于分布良好且分离良好的聚类,可以很好地工作。