我们正在尝试为包含大约400M行的数据仓库事实表实现表分区。我们的ETL从前一个加载中向后50天(源行系统时间戳的新行,修改行)从源系统获取数据。因此,在每个ETL循环中都会有新行,以及更新Fact表中相应行的旧行。我们的想法是在Fact表中插入新行并更新修改后的行。
分区列是date(int,YYYYMMDD),我们正在考虑按月分区。
就我而言,表格分区可以通过fast partition switch operations简化我们的插入。我们可以拆分最近的分区以创建新的空闲分区,将新行加载到临时表(使用日期约束,例如最近一个月),然后使用分区切换操作将新行“移动”到分区的事实表中。但是我们如何处理应该更新Fact表中相应行的修改行?这些行可以包含上个月的数据。分区切换有帮助吗?通常INSERT
和UPDATE
行由ETL工具(例如我们的SSIS)或MERGE
语句确定。分区在这种情况下如何工作?
答案 0 :(得分:7)
我再看一下这个设计并尝试弄清楚是否有更新的方法。以下是更新事实表的一些含义:
性能:更新是完全记录的事务。大事实表也有大量的数据可供读写。
多维数据集:更新事实表需要重新处理受影响的分区。随着事实表的不断增长,立方体处理时间也将继续增加。
预算:快速存储费用昂贵。更新大事实表将需要大量快速读写。
纯粹主义理论:除非初始值是错误(即用户输入15,000美元而不是1,500美元),否则不应更改事实表。任何非错误情况都将改变最初记录的交易。
有什么变化?变化的部分真的是维度的属性吗?如果是这样,是否可以将它们移动到维度并使用“缓慢变化的维度”类型任务处理更改?
另一种可能性,这可以通过抵消交易来实现吗?例如:
最初的InvoiceAmount是$ 10.00。会计后来增加了1.25美元的税收,然后向客户收取11.25美元的费用。而不是将值更新为$ 11.25,插入1.25美元的记录。发票的总金额仍然是11.25美元,您可以进行最低限度记录的插入而不是完全记录的更新来完成。
理论上不仅更新事实表是一个坏主意,随着事实表的增长,它变得非常昂贵且不可扩展。您将阅读和编写更多数据,从存储子系统中需要更多IOPS。当您准备好进行分析时,立方体处理会引发更多问题。
您还必须经常证明管理层为什么需要为数据仓库提供如此多的IOPS。对于不断变化的“事实”表,是否需要所有这些IOPS的商业价值/理由?
如果您无法找到事实表上的更新方法,至少建立一个以只读方式确定数据的截止点。否则,你永远无法扩展。
答案 1 :(得分:1)
切换在这里没有用。
也许您可以在不同的行范围内使用多个线程同时执行更新。这可能会加速它。注意不要触发锁升级,以便获得良好的并发性。
还要确保主要按聚簇索引的升序排序更新行。这有助于磁盘IO(这种技术可能不适用于多线程)。
答案 2 :(得分:0)
更新事实记录的原因与事实中具有非标识属性的原因一样多。除非计划先“删除”然后“插入”,否则无法避免更新。您不能简单地说“将度量标准增量记录为新事实”。