我们结合使用Apache Spark和Sparkube来动态创建在线分析环境。数据在Spark中准备,并作为具有Sparkube的多维度立方体公开。 Sparkube会自动发布简单的聚合(SUM,MIN,MAX,AVG,STD ...),但我们如何支持" Last Non empty"那种聚合?
以此数据集为例,定期记录各种产品的库存数量。 2018年的股票不应该是当年的股票记录的总和,而是该年度内的最新记录。
Time,Product,Stock
2017-11-01, Oranges, 40000
2017-11-01, Apples, 120000
2017-12-01, Oranges, 42000
2017-12-01, Apples, 110000
2018-01-01, Oranges, 50000
2018-01-01, Apples, 100000
2018-02-01, Oranges, 48000
2018-02-01, Apples, 130000
2018-03-01, Oranges, 46000
2018-03-01, Apples, 120000