Scala agg计数函数递归错误

时间:2017-09-11 17:01:29

标签: scala apache-spark

我正在尝试过滤我的数据框,以根据应该是id / day的唯一组合来查找重复项。为此,我编写了以下代码:

import org.apache.spark.sql.functions._

val count = equip
  .groupBy("cust_key", "Time_stamp")
  .agg(count(lit(1)).alias("count")).where("count">1)

但是我收到了一个错误:

  

recrusive value count需要类型。

我也试过这个而不是点燃(1)我用了count(“cust_key”)并得到了同样的错误。我试过在这里试一试,但我看到的答案主要是针对UDF看起来像。我知道答案可能是非常简单的事情,我会因为没有弄清楚而感到愚蠢,但我无法使其发挥作用。使用spark 2.0

1 个答案:

答案 0 :(得分:2)

请您尝试以下($):

import spark.implicits.StringToColumn

val count = equip
 .groupBy("cust_key", "Time_stamp")
 .agg(count(lit(1)).alias("count")).where($"count" > 1)