Question

我需要收集columnn值，并将其存储为spark数据帧中的数组形式。就像我们使用.values函数处理pandas数据框一样

我尝试使用.select().collect()，但是它给了我空的行

X = XVAr.values
Y = DF.loc[:,'LTR'].values

以上是对熊猫数据框所做的，我需要在spark数据框中做同样的事情

我希望输出为数组[[5,6,4,3],[3,4,6,5]]

Answer 1

没有任何样本数据很难分辨。但是您的解决方案应该可以工作，

arr = numpy.array(df.select('LTR').collect())