Question

在spark.mllib库中，KMeans具有在构建Kmeans实例时设置epsilon参数的功能。

但我没有看到Kmeans新Spark.ml库中的任何函数来设置此参数。我问的原因是因为新KMeans生成的集群数量少于我在setK（）方法中指定的数量，所以我想通过稍微减少epsilon来增加生成的集群数量。

有没有人知道如何在新的Spark.ml Kmeans类中设置epsilon？

org.apache.spark.ml.clustering.KMeans

感谢。

Answer 1

spark.ml库中的Epsilon已重命名为tol（容差的缩写）

示例：

KMeans kmeans = new KMeans().setK(2).setSeed(1L).setTol(0.0001)
KMeansModel model = kmeans.fit(dataset);