我将建立一个K-means聚类模型以进行离群值检测。为此,我需要确定需要选择的最佳群集数量。
目前,我尝试使用肘部方法来执行此操作。我绘制了平方误差的总和与簇数(k)的关系,但是,我得到了如下图所示的图形,这使确定弯头点变得混乱。
我需要知道,为什么要得到这样的图,以及如何确定最佳的聚类数。
答案 0 :(得分:1)
请记住,肘法不只是“赋予” k的最佳值,因为k的最佳值取决于解释。
肘法背后的理论是,我们都希望最小化某些误差函数(即平方误差之和),同时还选择一个较低的k值。
因此,肘形方法表明,k的好值将位于绘图上类似于肘形的点上。那是误差很小,但是当k局部增加时并不会急剧减少。
在您的图中,您可能会认为k = 3和k = 6都类似于肘部。通过选择k = 3,您已经选择了一个小k,我们看到k = 4,而k = 5在最小化误差方面并没有做得更好。 k = 6也是如此。
答案 1 :(得分:1)
K均值不适合进行离群值检测。这一直在这里弹出。
相反,请使用实际的离群值检测算法,例如局部离群值因子,kNN,LOOP等,而不是概念化并考虑到嘈杂的数据。