我需要收集columnn值,并将其存储为spark数据帧中的数组形式。就像我们使用.values
函数处理pandas数据框一样
我尝试使用.select().collect()
,但是它给了我空的行
X = XVAr.values
Y = DF.loc[:,'LTR'].values
以上是对熊猫数据框所做的,我需要在spark数据框中做同样的事情
我希望输出为数组[[5,6,4,3],[3,4,6,5]]
答案 0 :(得分:0)
没有任何样本数据很难分辨。但是您的解决方案应该可以工作,
arr = numpy.array(df.select('LTR').collect())