将大负载反转(或撤消)到仓库事实表

时间:2009-01-07 20:52:35

标签: data-warehouse

目前,我们计划为我们加载的每批事实记录一个“批次ID”。这样,我们可以在发现问题时退出负载。

我们是否应该考虑跟踪维度行上的批次ID?

维度行似乎有不同的规则。如果我们将它们视为缓慢变化,并使用一种保留历史记录的SCD算法,则重新加载并不是真正意义重大。

典型情景。符合尺寸,处理SCD。加载事实。完成。

扩展。符合尺寸,处理SCD。加载事实。找个问题。删除一批事实。解决问题。重新加载事实。完成。

可能的情景。符合尺寸,处理SCD。加载事实。找个问题。删除批次事实和维度行。解决问题。符合尺寸,处理SCD。加载事实。完成。

跟踪尺寸变化似乎没什么帮助。关于如何最好地处理数据仓库的“撤消”或“回滚”的任何指导?

我们的ETL工具完全是自行开发的Python应用程序。

1 个答案:

答案 0 :(得分:3)

从我的角度来看,只要你没有滥用你的尺寸(比如追踪时间到毫秒),通过跟踪回滚的尺寸就没有太大的收获。您还可以构建一个工具来每月清理一次未引用的维度。