应用错误收集

我有一个240万行的数据和大约56个变量。我正在对10000个数据进行采样，并将PCA分为10个维度

然后，我将BIRCH聚类用作k均值，并且层次显示出较差的轮廓系数。 Scikit说BIRCH的用例是大型数据集和数据约简

结果，我得到4个聚类，其Silhoutte系数为0.4（-1是最差，1是最好），我认为这已经足够了。问题是，第一个集群太大，它只能获得所有数据的94％，而其他集群只能得到6％

所以我的问题是； PCA和采样会影响BIRCH聚类结果吗？怎样做才能使占主导地位的集群聚在一起？

我正在考虑要么重新聚类到94％，要么接受我94％的数据确实具有相同的集群这一事实。谢谢