如何将CSV数据转换为LabelledPoint格式?

时间:2016-06-09 10:59:51

标签: python apache-spark pyspark

在此处提供的示例http://spark.apache.org/docs/latest/mllib-clustering.html#streaming-k-means中,数据已经是LabelledPoint格式,但我有一个带有单独标签和功能列的csv文件(它们都是文本)。

1 个答案:

答案 0 :(得分:0)

没有直接的方法可以将CSV转换为LabeledPoint。

这是我经常使用的代码:

val csv = sc.textFile("PATH/TO/CSVFILE")

val lPoint = csv.map { line =>
  val values = line.split(",").map(_.toDouble)
  val features = Vectors.dense(values.init)
  //Assuming that the label is always in the last column.
  val label = values.last
  LabeledPoint(label, features)
}