应用错误收集

我是机器学习和数据分析的新手，我很难集中我的数据。我正在使用6个功能处理大约40,000个观测值。

A few sample rows from my dataframe

我尝试了各种聚类方法，包括K-Means，DBSCAN，以及尝试使用链接的scipy层次聚类。在预处理期间，估算缺失数据并且所有数据都被标准化。一旦我完成PCA以将尺寸从4减小到6，我的数据看起来就像新月形，下面可以看到蓝点。

我确定在K-means中使用10个簇最好基于轮廓系数分析，这就是结果：

K-Means result with each centroid marked by a red X

在数据聚集后执行PCA时，结果没有太大变化。

DBSCAN本身决定4个集群并提供4个集群，但大部分数据从这些集群中排除并描述为噪声。

对于分层方法，尝试执行linkage（）并保持提供内存错误消息时，数据使用率过高。

我有什么方法可以对数据进行聚类吗？我的数据（新月）的形状是否适合其他建模方法？

如果不先考虑

不得将群集算法用作黑盒子。他们需要小心使用，否则你只能得到垃圾。要正确使用它们，您需要了解每种算法的目标。 K均值是最小二乘法。如果你在非常规范化的数据上使用它，它就会失败。

根据你的情节判断，你的数据库中有一个糟糕的记录，很大程度上导致了“月亮”形状：所有东西都需要尽可能远离那个糟糕的记录。

除此之外：1。您是否正确地为您的问题扩展了数据？你选择了合适的距离测量吗？

如果不先考虑