提取列值并将其存储在数组中

时间:2019-05-16 03:55:29

标签: python apache-spark pyspark

我需要收集columnn值,并将其存储为spark数据帧中的数组形式。就像我们使用.values函数处理pandas数据框一样

我尝试使用.select().collect(),但是它给了我空的行

X = XVAr.values
Y = DF.loc[:,'LTR'].values

以上是对熊猫数据框所做的,我需要在spark数据框中做同样的事情

我希望输出为数组[[5,6,4,3],[3,4,6,5]]

1 个答案:

答案 0 :(得分:0)

没有任何样本数据很难分辨。但是您的解决方案应该可以工作,

arr = numpy.array(df.select('LTR').collect())