在spark.mllib库中,KMeans具有在构建Kmeans实例时设置epsilon参数的功能。
但我没有看到Kmeans新Spark.ml库中的任何函数来设置此参数。我问的原因是因为新KMeans生成的集群数量少于我在setK()方法中指定的数量,所以我想通过稍微减少epsilon来增加生成的集群数量。
有没有人知道如何在新的Spark.ml Kmeans类中设置epsilon?
org.apache.spark.ml.clustering.KMeans
感谢。
答案 0 :(得分:1)
spark.ml
库中的Epsilon已重命名为tol
(容差的缩写)
示例:
KMeans kmeans = new KMeans().setK(2).setSeed(1L).setTol(0.0001)
KMeansModel model = kmeans.fit(dataset);