我遇到了一个让我失去理智的问题。
我有一个使用来自mllib的Kmeans 的应用程序,如果我在笔记本电脑上启动它,会给我一个结果并且来自AWS的> cluster 为我提供了另一个完全不同。事实上,我在笔记本电脑和AWS集群上多次启动,每个平台的结果都相似,但两个平台的结果应该相似。
我没有使用Repartition,我只是使用默认参数执行它。
任何解决方案? 感谢
答案 0 :(得分:0)
Spark Kmeans将随机化初始质心。尝试将随机种子设置为固定值。
val kmeansModel = new Kmeans().setSeed(1L).setK(k)