scala - 如何基于Spark中包含的所有内容进行过滤？

我有一个数据框：

val df = Seq(
    ("A",11,5),
    ("A",12,10),
    ("A",13,1),
    ("B",11,5),
    ("B",14,5),
    ("B",13,5)
    ).toDF("id","type","value")

df.groupBy($"id").agg(collect_set("value")).show(false)

+---+------------------+
|id |collect_set(value)|
+---+------------------+
|B  |[5]               |
|A  |[1, 5, 10]        |
+---+------------------+

我需要过滤ID（或唯一ID的数量），这些ID中的所有值均小于5（或任何数字）。例如在上面的df 只有B的所有值都小于5。

有人可以告诉我该怎么做吗？

如何基于Spark中包含的所有内容进行过滤？

1 个答案: