PCA + k-means导致小群集

时间:2018-04-23 21:07:15

标签: machine-learning statistics k-means pca

我正在研究市场细分问题。我有100多个变量可以通过PCA减少到31个因子。当我把它放入k-means模型时,我得到的解决方案有两个簇,每个簇的样本略少于一半,然后是两个或三个带有一个或两个簇的簇。

通常,那些一个偏离群集是异常值的结果,但除了PCA之外还有其他任何方式进行预处理吗?我可以避免使用一到两个观察的群集吗?

1 个答案:

答案 0 :(得分:1)

您可以做的是在进行群集和PCA之前删除异常值。这将使您的算法在数据中查找真实集群而不是异常值。

有多种技术可以删除异常值,您可以通过删除具有异常值的观察(这可能非常有效)来执行此操作。如果某个功能距离该功能的全局分布太远,您可以认为它是一个异常值。

您还可以尝试使用IsoperForest或Local Outlier Factor等无监督算法。我通常使用第一个,因为它同时查看所有变量而不是分别查看每个变量。到目前为止,它已经非常有效。