BIRCH群集后,群集大小太大

时间:2019-02-12 12:59:11

标签: cluster-analysis k-means data-analysis pca hierarchical-clustering

我有一个240万行的数据和大约56个变量。我正在对10000个数据进行采样,并将PCA分为10个维度

然后,我将BIRCH聚类用作k均值,并且层次显示出较差的轮廓系数。 Scikit说BIRCH的用例是大型数据集和数据约简

结果,我得到4个聚类,其Silhoutte系数为0.4(-1是最差,1是最好),我认为这已经足够了。问题是,第一个集群太大,它只能获得所有数据的94%,而其他集群只能得到6%

所以我的问题是; PCA和采样会影响BIRCH聚类结果吗?怎样做才能使占主导地位的集群聚在一起?

我正在考虑要么重新聚类到94%,要么接受我94%的数据确实具有相同的集群这一事实。 谢谢

0 个答案:

没有答案