Spark MLLib中Kmeans ++中的initializationSteps参数究竟是什么?

时间:2015-12-17 22:40:11

标签: apache-spark pyspark apache-spark-sql apache-spark-mllib

我知道k-means是什么,我也理解k-means ++算法是什么。我相信唯一的变化是找到最初的K中心的方式。

在++版本中,我们最初选择一个中心,并使用概率分布选择剩余的k-1中心。

在k-means的MLLib算法中,什么是initializationSteps参数?

1 个答案:

答案 0 :(得分:2)

准确地说,k-means ++是一种选择初始中心的算法,它没有描述整个训练过程。

MLLib k-means正在使用k-means||进行初始化,这是++的分布式变体。它不是一个样本,而是迭代次数的多个点。

initializationSteps对应于迭代次数,根据the original paper应大致为O(log n)。