我们假设我们有一个类型的变量var1
org.apache.spark.rdd.RDD[org.apache.spark.mllib.linalg.Vector]
和另一个变量var2的类型
org.apache.spark.rdd.RDD[Int]
它们都有相同的行数。
我想要的是将var2添加为var1的新列。
答案 0 :(得分:1)
实现目标的最简单方法是:
vv.zip(ii).map( t => Vectors.dense(t._1.toArray ++ Array(t._2.toDouble) ) )
vv
是RDD[Vector]
,ii
是RDD[Int]
。也许这不是最有效的方式,但它是最简单的方法。