我正在尝试过滤我的数据框,以根据应该是id / day的唯一组合来查找重复项。为此,我编写了以下代码:
import org.apache.spark.sql.functions._
val count = equip
.groupBy("cust_key", "Time_stamp")
.agg(count(lit(1)).alias("count")).where("count">1)
但是我收到了一个错误:
recrusive value count需要类型。
我也试过这个而不是点燃(1)我用了count(“cust_key”)并得到了同样的错误。我试过在这里试一试,但我看到的答案主要是针对UDF看起来像。我知道答案可能是非常简单的事情,我会因为没有弄清楚而感到愚蠢,但我无法使其发挥作用。使用spark 2.0
答案 0 :(得分:2)
请您尝试以下($
):
import spark.implicits.StringToColumn
val count = equip
.groupBy("cust_key", "Time_stamp")
.agg(count(lit(1)).alias("count")).where($"count" > 1)