将Rdd [Vector]转换为Rdd [Double]

时间:2015-10-05 09:28:00

标签: scala apache-spark rdd apache-spark-mllib

如何将csv转换为Rdd [Double]?我有错误:无法在此行应用于(org.apache.spark.rdd.RDD [Unit]):

val kd = new KernelDensity().setSample(rows) 

我的完整代码在这里:

   import org.apache.spark.mllib.linalg.Vectors
    import org.apache.spark.mllib.linalg.distributed.RowMatrix
    import org.apache.spark.mllib.stat.KernelDensity
    import org.apache.spark.rdd.RDD
    import org.apache.spark.{SparkContext, SparkConf}

class KdeAnalysis {
  val conf = new SparkConf().setAppName("sample").setMaster("local")
  val sc = new SparkContext(conf)

  val DATAFILE: String = "C:\\Users\\ajohn\\Desktop\\spark_R\\data\\mass_cytometry\\mass.csv"
  val rows = sc.textFile(DATAFILE).map {
    line => val values = line.split(',').map(_.toDouble)
      Vectors.dense(values)
  }.cache()



  // Construct the density estimator with the sample data and a standard deviation for the Gaussian
  // kernels
  val rdd : RDD[Double] = sc.parallelize(rows)
  val kd = new KernelDensity().setSample(rdd)
    .setBandwidth(3.0)

  // Find density estimates for the given values
  val densities = kd.estimate(Array(-1.0, 2.0, 5.0))
}

2 个答案:

答案 0 :(得分:2)

由于rowsRDD[org.apache.spark.mllib.linalg.Vector]以下行,因此无效:

val rdd : RDD[Double] = sc.parallelize(rows)

parallelize预计Seq[T]RDD不是Seq

即使这部分工作正如您所期望的那样输入也是错误的。 KernelDensity.setSample的正确参数可以是RDD[Double]JavaRDD[java.lang.Double]。此时看起来它不支持多变量数据。

关于图块中的问题,您可以flatMap

rows.flatMap(_.toArray)
创建rows

时,

甚至更好

val rows = sc.textFile(DATAFILE).flatMap(_.split(',').map(_.toDouble)).cache()

但我怀疑它确实是你需要的。

答案 1 :(得分:0)

准备好此代码,请评估它是否可以帮助您 - >

val doubleRDD = rows.map(_.toArray).flatMap(x => x)