Question

我遇到了一个让我失去理智的问题。

我有一个使用来自mllib的Kmeans 的应用程序，如果我在笔记本电脑上启动它，会给我一个结果并且来自AWS的> cluster 为我提供了另一个完全不同。事实上，我在笔记本电脑和AWS集群上多次启动，每个平台的结果都相似，但两个平台的结果应该相似。

我没有使用Repartition，我只是使用默认参数执行它。

任何解决方案？感谢

Answer 1

Spark Kmeans将随机化初始质心。尝试将随机种子设置为固定值。

val kmeansModel = new Kmeans().setSeed(1L).setK(k)