如何将RDD [Int]类型的列添加到RDD [Vector]

时间:2016-05-24 07:41:46

标签: scala apache-spark

我们假设我们有一个类型的变量var1 org.apache.spark.rdd.RDD[org.apache.spark.mllib.linalg.Vector] 和另一个变量var2的类型 org.apache.spark.rdd.RDD[Int] 它们都有相同的行数。

我想要的是将var2添加为var1的新列。

1 个答案:

答案 0 :(得分:1)

实现目标的最简单方法是:

vv.zip(ii).map( t => Vectors.dense(t._1.toArray ++ Array(t._2.toDouble) ) )

vvRDD[Vector]iiRDD[Int]。也许这不是最有效的方式,但它是最简单的方法。