Apache K意味着WSSSE会增加一些K吗?

时间:2017-05-03 13:55:38

标签: apache-spark k-means

我试图看看"肘图中是否有点"这将有助于我选择K in K意味着算法

但是,我注意到随着K的增加,WSSSE有时会增加。我假设WSSSE会随着K的增加而减少。我附上了一张显示这张照片以及Pyspark代码的图片。 enter image description here

1 个答案:

答案 0 :(得分:0)

唯一可以保证的是,一旦达到k == n,你将获得零的WSSSE,因为每个点直接位于一个集群质心上,每个点的SSE都为零,因此WSSSE也是如此。你的函数是非凸的原因是k-means使用了集群质心(种子)的随机初始化,而k-means的优化函数对于初始集群质心分布是非确定性的(因为这个问题是NP-硬)。因此,您可以在不同的运行中以较低的局部最优值结束。这是关于此主题的另一个thread