Question

我有一个数据集

const file_name = [{
  "id": 1
}, {
  "id": 2
}, {
  "id": 3
}]

for (let i = 0; i <= file_name.length; i++) {
  console.log(file_name[i].id);
}

需要数字错误每天进行计数

输出

#full model
model1 <- glmer(x~var1+var2+var3+(1|var4)+(1|var5)+(1|var6),data=data1)
#exclude models containing both (1|var4) & (1|var5) at the same time
dredge(model1, subset = !((1|var4) && (1|var5)))

+----------+--------+------------+
|        id|    date|       errors|
+----------+--------+------------+
|1         |20170319|      error1|
|1         |20170319|      error2|
|1         |20170319|      error2|
|1         |20170319|      error1|
|2         |20170319|        err6|
|1         |20170319|       error2|

//我如何继续计算错误

我在Spark Scala SQL中尝试了Windowing over date，但找不到有效的方法我是否需要转换为Rdd并找到一种方法？？

Answer 1

您只需要同时groupBy和date errors。

val c =dataset.groupBy("date","errors").count()

火花计数中分组的词数

1 个答案: