得到群集和群集的第一个元素ids kmeans spark

时间:2017-03-08 11:11:00

标签: scala apache-spark k-means

我用我的数据集训练了一个k均值模型,现在我想从每个集群中获得一些元素以及集群id

val clusters = KMeans.train(data, numClusters, numIterations)

val vectorsAndClusterIdx = data.map{ point =>
  val prediction = clusters.predict(point)
  (point.toString, prediction)
} 

但是一旦我知道了,我就不知道如何用他们的群集ID打印这些元素

1 个答案:

答案 0 :(得分:1)

如果我了解您,您希望使用指定的群集ID打印每个点。

您可以尝试这样的事情:

    vectorsAndClusterIdx.collect().foreach(println(_))

或许它会更好:

    println(dataClustered.collect().mkString("\n"))