哪种方法最适合聚类具有不规则形状的多维数据?

时间:2016-06-15 11:38:17

标签: machine-learning cluster-computing cluster-analysis hierarchical-clustering unsupervised-learning

我是机器学习和数据分析的新手,我很难集中我的数据。我正在使用6个功能处理大约40,000个观测值。

A few sample rows from my dataframe

我尝试了各种聚类方法,包括K-Means,DBSCAN,以及尝试使用链接的scipy层次聚类。在预处理期间,估算缺失数据并且所有数据都被标准化。一旦我完成PCA以将尺寸从4减小到6,我的数据看起来就像新月形,下面可以看到蓝点。

我确定在K-means中使用10个簇最好基于轮廓系数分析,这就是结果:

K-Means result with each centroid marked by a red X

在数据聚集后执行PCA时,结果没有太大变化。

DBSCAN本身决定4个集群并提供4个集群,但大部分数据从这些集群中排除并描述为噪声。

对于分层方法,尝试执行linkage()并保持提供内存错误消息时,数据使用率过高。

我有什么方法可以对数据进行聚类吗?我的数据(新月)的形状是否适合其他建模方法?

1 个答案:

答案 0 :(得分:1)

如果不先考虑

,请不要运行群集

不得将群集算法用作黑盒子。他们需要小心使用,否则你只能得到垃圾。要正确使用它们,您需要了解每种算法的目标。 K均值是最小二乘法。如果你在非常规范化的数据上使用它,它就会失败。

根据你的情节判断,你的数据库中有一个糟糕的记录,很大程度上导致了“月亮”形状:所有东西都需要尽可能远离那个糟糕的记录。

除此之外:1。您是否正确地为您的问题扩展了数据?你选择了合适的距离测量吗?