如何使用Spark Scala将一个列数据转换为矢量

时间:2016-11-14 21:42:22

标签: scala apache-spark vector spark-dataframe

我使用Spark,Scala来处理数据。我有一个问题无法解决。我有一个数据框,这是一列:

data
1
2
3
4
5

我想要它到一个矢量 [1.0,2.0,3.0,4.0,5.0]

我该如何实施?我试过了 df.collect().toVectorrdd.foreach,但每次它返回给我一个向量数组[1,0],[2.0],[3.0],[4.0],[5.0],而不是单个向量。

1 个答案:

答案 0 :(得分:3)

这种情况正在发生,因为当您collect数据帧时,您会得到一个行数组。您需要从行对象中提取值。

df.collect().map(x => x.getDouble(0)).toVector