我有一个240万行的数据和大约56个变量。我正在对10000个数据进行采样,并将PCA分为10个维度
然后,我将BIRCH聚类用作k均值,并且层次显示出较差的轮廓系数。 Scikit说BIRCH的用例是大型数据集和数据约简
结果,我得到4个聚类,其Silhoutte系数为0.4(-1是最差,1是最好),我认为这已经足够了。问题是,第一个集群太大,它只能获得所有数据的94%,而其他集群只能得到6%
所以我的问题是; PCA和采样会影响BIRCH聚类结果吗?怎样做才能使占主导地位的集群聚在一起?
我正在考虑要么重新聚类到94%,要么接受我94%的数据确实具有相同的集群这一事实。 谢谢