数据仓库建模

时间:2020-10-14 15:41:49

标签: data-modeling datamodel data-vault

假设以下数据架构: 源系统->数据仓库(使用数据仓库模型)->数据虚拟化->消费层(例如,BI工具和报告)

我了解到,对于数据仓库来说,关键原则之一是加载原始数据并保留所有来源的记录-因此,出于可追溯性/审计目的,请勿进行重复数据删除或转换。如果这是真的,那么转换将在哪里发生?

2 个答案:

答案 0 :(得分:2)

是的,的确如此,“原始”数据保管库保留了加载时与源系统上相同的记录。

但是还有另一个概念,即“业务”数据仓库。这是所有逻辑和转换发生的地方。业务数据保管库不是原始数据保管库的完整副本,但是您可以创建集线器/链接/卫星/坑/桥以实现适合您需求的逻辑。

这样,从长远来看,它可以为您提供帮助。例如,如果您明年需要更改业务规则,则在过去的特定时间,您仍然拥有特定源系统的原始数据。如果您的逻辑有错误,那么您仍然有原始数据。

答案 1 :(得分:0)

根据我的经验,通常您具有以下架构:

  1. 原始资源(从OLTP数据源复制)
  2. 分段(现在是Datalake中的持久分段区域,因为它比关系数据库便宜)
  3. Raw Vault(应用所谓的“硬性规则”,例如数据类型更改)
  4. Business Vault(应用所谓的软规则,您的所有业务逻辑,聚合,串联等)
  5. 信息集市(数据集市有时是虚拟的,但并不总是...通常是星型/雪花模式)
  6. 立方体/管状模型
  7. BI工具

有关Raw Vault和Business Vault之间的区别的更多信息,您可以在这里找到:Datavault - hard rules (rawvault) vs soft rules (businessvault)