maxIterations和MLlib KMeans之间的区别?

时间:2016-03-22 18:55:17

标签: machine-learning k-means apache-spark-mllib

据我所知,run参数是KMeans重复获得最佳聚类的次数,maxIterations是每个run中的迭代次数,是否正确?在5000个数据点的情况下,它们的最佳值是什么?

1 个答案:

答案 0 :(得分:1)

我错过了我的回答 - 阅读了你的问题。

  

据我所知,run是KMeans重复获得最佳聚类的次数,maxIterations意味着每次运行中的迭代次数,是否正确

是的,这是正确的。通常你只运行一次k-means。最大迭代次数是允许k-means质心更新循环发生的最大迭代次数。

Spark的实现确实支持运行所描述的内容,即。您希望运行算法的次数。它通常没有必要。特别是因为优化k-means指标并不一定能优化您的实际目标。

  

在5000个数据点的情况下,它们的最佳值是什么?

你不应该问这类问题,这些问题总是存在问题和数据依赖性。您应该努力更好地理解您正在使用的工具及其含义以及如何使用它们进行迭代。这将帮助您避免将自己置于这样一种情况,即您想要提出这样的问题,或者是否有必要 - 需要什么其他上下文(只是基准数量肯定不足以进行任何有意义的讨论)。