当数据是否应该在ETL工作程序的内存中聚合(例如,使用pandas groupby或pd.pivot_table)而不是在数据库级别执行groupby查询时,是否存在一般偏好或最佳实践?< / p>
在可视化层,我连接到最近30天的详细交互级数据,然后是最近几年的聚合数据(每日级别)。
我想如果我计划实现聚合表,那么最好在ETL阶段就这样做,因为这可以远程完成,而不是浪费数据库服务器的资源。这是对的吗?
答案 0 :(得分:1)
如果您担心的是尽可能减少源数据库服务器的负载,最好将表从源数据库拉到临时区域并在那里进行连接和聚合。但要注意ETL工具不在源数据库表上执行嵌套循环连接,即拉入其中一个表,然后对另一个表运行数千个查询以查找匹配的行
如果您的目标是尽可能快速有效地执行联接和聚合,请务必将其推送到源数据库。这可能会给源数据库带来更多负担。我说“可能”因为如果您只需要在单个表上进行聚合,那么在源数据库中执行此操作可能比提取整个表更便宜。
答案 1 :(得分:0)
如果您按天聚合,如果您的老板希望按小时或星期汇总该怎么办?
一般规则是:您的事实表粒度应尽可能精细。然后你可以向下钻取。
您也可以创建预聚合表,例如按小时,天,周,月等。这些天空间很便宜。
像Pentaho Aggregation Designer这样的工具可以为您自动执行此操作。