我在我的数据集上使用Scikit群集kmeans。我正在使用6个集群,一切似乎都很好:
然而,在完成kmeans之后,我立即在标签上进行分组并获得以下内容:
Length: 55003, dtype: int64
0 count 23110
1 count 1
2 count 10923
3 count 17949
4 count 1736
5 count 1284
我总是得到只有1个数据点的集群。如果我保存模型并在模型上再次预测数据,预测也会有一个数据点。那是怎么回事?这是sci-kit的错误吗?
答案 0 :(得分:0)
这是一个异常值。我从我的数据中删除了它,这些组现在是合适的。