我是机器学习和数据分析的新手,我很难集中我的数据。我正在使用6个功能处理大约40,000个观测值。
我尝试了各种聚类方法,包括K-Means,DBSCAN,以及尝试使用链接的scipy层次聚类。在预处理期间,估算缺失数据并且所有数据都被标准化。一旦我完成PCA以将尺寸从4减小到6,我的数据看起来就像新月形,下面可以看到蓝点。
我确定在K-means中使用10个簇最好基于轮廓系数分析,这就是结果:
在数据聚集后执行PCA时,结果没有太大变化。
DBSCAN本身决定4个集群并提供4个集群,但大部分数据从这些集群中排除并描述为噪声。
对于分层方法,尝试执行linkage()并保持提供内存错误消息时,数据使用率过高。
我有什么方法可以对数据进行聚类吗?我的数据(新月)的形状是否适合其他建模方法?
答案 0 :(得分:1)
不得将群集算法用作黑盒子。他们需要小心使用,否则你只能得到垃圾。要正确使用它们,您需要了解每种算法的目标。 K均值是最小二乘法。如果你在非常规范化的数据上使用它,它就会失败。
根据你的情节判断,你的数据库中有一个糟糕的记录,很大程度上导致了“月亮”形状:所有东西都需要尽可能远离那个糟糕的记录。
除此之外:1。您是否正确地为您的问题扩展了数据?你选择了合适的距离测量吗?