应用错误收集

根据集合相等性过滤PySpark数据帧

时间：2017-08-11 10:29:01

标签： pyspark

假设我有一个PySpark数据框，其列类型为set：

from pyspark import SparkContext
import pyspark.sql.functions as f

sc = SparkContext()    

df = sc.parallelize([
    [1, 'A'],
    [1, 'B'],
    [2, 'A'],
    [2, 'C']
]).toDF(('id', 'val'))

df_grp = df.groupBy('id').agg(f.collect_set('val').alias('val_set'))

df_grp.show()

show()的结果是：

+---+-------+
| id|val_set|
+---+-------+
|  1| [B, A]|
|  2| [C, A]|
+---+-------+

如何只选择val_set为[B, A]的行？

0 个答案:

没有答案