应用错误收集

在Spark中逐步更新聚合

时间：2016-06-15 12:24:01

标签： scala apache-spark aggregate apache-spark-sql spark-streaming

我创建了一个基于数据框的多维数据集，该数据框包含多个列和一个聚合总和。

val cubeData = initialData 
    .toDF("age", "country", "monthy_salary", "num_of_cars")
    .cube("age", "country", "monthy_salary", "num_of_cars") 
    .agg( sum("num_of_cars") as "sum_num_of_cars" )

随着新记录的出现，我想更新多维数据集（DF）和聚合值。

最有效的方法是什么？

0 个答案:

没有答案