火花计数中分组的词数

时间:2019-03-01 21:12:40

标签: sql scala apache-spark apache-spark-sql apache-spark-dataset

我有一个数据集

const file_name = [{
  "id": 1
}, {
  "id": 2
}, {
  "id": 3
}]

for (let i = 0; i <= file_name.length; i++) {
  console.log(file_name[i].id);
}

需要数字错误每天进行计数

输出

#full model
model1 <- glmer(x~var1+var2+var3+(1|var4)+(1|var5)+(1|var6),data=data1)
#exclude models containing both (1|var4) & (1|var5) at the same time
dredge(model1, subset = !((1|var4) && (1|var5)))
+----------+--------+------------+
|        id|    date|       errors|
+----------+--------+------------+
|1         |20170319|      error1|
|1         |20170319|      error2|
|1         |20170319|      error2|
|1         |20170319|      error1|
|2         |20170319|        err6|
|1         |20170319|       error2|

//我如何继续计算错误

我在Spark Scala SQL中尝试了Windowing over date,但找不到有效的方法 我是否需要转换为Rdd并找到一种方法??

1 个答案:

答案 0 :(得分:1)

您只需要同时groupBydate errors

val c =dataset.groupBy("date","errors").count()