如何基于Spark中包含的所有内容进行过滤?

时间:2018-11-08 01:14:47

标签: scala apache-spark dataframe

我有一个数据框:

val df = Seq(
    ("A",11,5),
    ("A",12,10),
    ("A",13,1),
    ("B",11,5),
    ("B",14,5),
    ("B",13,5)
    ).toDF("id","type","value")

df.groupBy($"id").agg(collect_set("value")).show(false)

+---+------------------+
|id |collect_set(value)|
+---+------------------+
|B  |[5]               |
|A  |[1, 5, 10]        |
+---+------------------+

我需要过滤ID(或唯一ID的数量),这些ID中的所有值均小于5(或任何数字)。例如在上面的df 只有B的所有值都小于5。

有人可以告诉我该怎么做吗?

1 个答案:

答案 0 :(得分:0)

libuv