在其余的批处理间隔中我的结构已满时,可以忽略流数据吗?

时间:2018-09-11 20:31:41

标签: arrays stream spark-streaming batch-processing

我有一个array[array],我用来自stream的数据填充。我的batch interval是1秒。 我正在使用foldleft进行填充,因此每1 s将所有数据汇总到array中。  当我的atch interval已满时,我如何忽略其余b array的其余数据?

My code is:
   var arr = inputRdd.transform(x => x.groupBy(_ (1)).mapValues(x => x
                      .foldLeft(Array.ofDim[Double](C, T)) { (a, b) => {
                       var c = a
                       c(b(2).toInt)(findNextEmpty(a,b(2).toInt, T)) += b(3).toDouble
                       c  }}))

0 个答案:

没有答案