目前,我们计划为我们加载的每批事实记录一个“批次ID”。这样,我们可以在发现问题时退出负载。
我们是否应该考虑跟踪维度行上的批次ID?
维度行似乎有不同的规则。如果我们将它们视为缓慢变化,并使用一种保留历史记录的SCD算法,则重新加载并不是真正意义重大。
典型情景。符合尺寸,处理SCD。加载事实。完成。
扩展。符合尺寸,处理SCD。加载事实。找个问题。删除一批事实。解决问题。重新加载事实。完成。
可能的情景。符合尺寸,处理SCD。加载事实。找个问题。删除批次事实和维度行。解决问题。符合尺寸,处理SCD。加载事实。完成。
跟踪尺寸变化似乎没什么帮助。关于如何最好地处理数据仓库的“撤消”或“回滚”的任何指导?
我们的ETL工具完全是自行开发的Python应用程序。
答案 0 :(得分:3)
从我的角度来看,只要你没有滥用你的尺寸(比如追踪时间到毫秒),通过跟踪回滚的尺寸就没有太大的收获。您还可以构建一个工具来每月清理一次未引用的维度。