在Spark中逐步更新聚合

时间:2016-06-15 12:24:01

标签: scala apache-spark aggregate apache-spark-sql spark-streaming

我创建了一个基于数据框的多维数据集,该数据框包含多个列和一个聚合总和。

val cubeData = initialData 
    .toDF("age", "country", "monthy_salary", "num_of_cars")
    .cube("age", "country", "monthy_salary", "num_of_cars") 
    .agg( sum("num_of_cars") as "sum_num_of_cars" ) 

随着新记录的出现,我想更新多维数据集(DF)和聚合值。

最有效的方法是什么?

0 个答案:

没有答案