Question

我用我的数据集训练了一个k均值模型，现在我想从每个集群中获得一些元素以及集群id

val clusters = KMeans.train(data, numClusters, numIterations)

val vectorsAndClusterIdx = data.map{ point =>
  val prediction = clusters.predict(point)
  (point.toString, prediction)
}

但是一旦我知道了，我就不知道如何用他们的群集ID打印这些元素

Answer 1

如果我了解您，您希望使用指定的群集ID打印每个点。

您可以尝试这样的事情：

    vectorsAndClusterIdx.collect().foreach(println(_))

或许它会更好：

    println(dataClustered.collect().mkString("\n"))

得到群集和群集的第一个元素ids kmeans spark

1 个答案: