使用列中的值对数据框进行子集

时间:2018-06-28 14:53:08

标签: pyspark

我有一个只有一列的数据帧A。 A中的值是作为另一个数据框B的列名称的字符串。您可能已经猜到了,我想使用A中的值对数据框B进行子集化。

我需要将A中的值转换为一个数组,以后可以将该数组用于子集B。那是正确的还是还有另一种方法?

我找到的解决方案如下:

B.select(A.select("names").rdd.flatMap(lambda x: x).collect())

没有更好的方法吗?为什么我必须转换为RDD?

0 个答案:

没有答案