Question

我有一个中等大小的火花数据帧（如10000到100000行），并希望根据行是否在一个巨大的列表（数千万的长度）中来过滤行。我做的是：

sc.broadcast(huge_list)
df = df.filter(df['some_col'].isin(huge_list))

然而，表现相当缓慢。有没有一种有效的方法呢？

Answer 1

只需执行join。你在行中爆炸你的列表。然后，您使用inner加入两个数据框。结果应该更快。