标签: pyspark
我有一个只有一列的数据帧A。 A中的值是作为另一个数据框B的列名称的字符串。您可能已经猜到了,我想使用A中的值对数据框B进行子集化。
我需要将A中的值转换为一个数组,以后可以将该数组用于子集B。那是正确的还是还有另一种方法?
我找到的解决方案如下:
B.select(A.select("names").rdd.flatMap(lambda x: x).collect())
没有更好的方法吗?为什么我必须转换为RDD?