如何在数据流上存储最后'n'天/周/月/年聚合?

时间:2014-06-11 21:02:22

标签: data-warehouse aggregation-framework amazon-redshift amazon-kinesis

以这样的方式存储数据的最佳方式是,我可以获得诸如“给我计算最近两周失败的交易数”的查询的实时答案,“计算从现在开始的过去2年内创建的帐户的数量”。每次计算行数不是一个选项,因为表中的单个条目数量很大,可能需要数小时才能计算出来。

我只对以滚动窗口方式实时查找聚合感兴趣。此外,我不想保留超过2年的数据,并希望自动删除。

有没有解决这个问题的标准方法?像redshift / kinesis这样的服务会有帮助吗?

感谢您的期待。

1 个答案:

答案 0 :(得分:0)

对于大多数数据仓库解决方案,我们构建的聚合表的分辨率低至业务日期,这使得报告2年或更长时间的数据的速度非常快。 Kinesis当然可以帮助Redshift以高吞吐量提取数据,这样您就可以实时更新当天的聚合计数。这种方法的唯一困难是您需要提前知道要报告的聚合,以便设置它们,但是一个体面的业务分析师应该能够在开始时为您提供大部分覆盖度量标准。