我的笔记本电脑和群集上的结果不同

时间:2017-05-11 14:38:01

标签: amazon-web-services apache-spark k-means apache-spark-mllib

我遇到了一个让我失去理智的问题。

我有一个使用来自mllib的Kmeans 的应用程序,如果我在笔记本电脑上启动它,会给我一个结果并且来自AWS的> cluster 为我提供了另一个完全不同。事实上,我在笔记本电脑和AWS集群上多次启动,每个平台的结果都相似,但两个平台的结果应该相似。

我没有使用Repartition,我只是使用默认参数执行它。

任何解决方案? 感谢

1 个答案:

答案 0 :(得分:0)

Spark Kmeans将随机化初始质心。尝试将随机种子设置为固定值。

val kmeansModel = new Kmeans().setSeed(1L).setK(k)