我有一张桌子,每小时可以流数千个事件。每个事件都有一个时间字段,其中包含事件的时间戳记,并且该表按天在 time 字段上进行分区。
我想每小时计算一次有关数据的每小时汇总统计信息。
如果仅对分区执行此操作,效率将不高,因为对于每个每小时的查询,我将扫描整个分区(因此,我必须扫描到目前为止流过的所有数据即使我只想要最后一个小时)。所以我正在考虑每小时进行群集。
我的疑问是:通常更有效的是什么? (1)直接将时间字段聚类?或(2)是否有一个附加字段 hour ,其中将时间舍入为小时,并以此新字段进行聚类?