数据仓库建模:数据仓库与持久性暂存区

时间:2020-01-20 20:28:03

标签: sql database etl data-warehouse data-vault

请考虑以下两种DWH架构:

带有原始数据保险库的DWH,层:

  • 源系统
  • 临时区域(在每次加载时都会被截断,源表的确切模式)
  • 原始数据保管库(建模为数据保管库,包含记录历史记录,根据源系统结构建模的集线器/卫星/链接,未应用任何业务规则)
  • 数据市场(应用了维度模型,业务规则)

具有持久暂存区(称为PSA或HDA)的DWH,层:

  • 源系统
  • 暂存区(在每次加载时都会被截断,源表的精确模式)
  • PSA(包含记录历史记录,源表的架构以及date_load / date_load_end列等)
  • 数据市场(应用了维度模型,业务规则)

与PSA概念相比,原始Data Vault概念是否有任何好处?我认为Data Vault建模在ETL方面增加了不必要的复杂性,并且在性能方面也较慢。

有什么想法很难找到一个真正的好答案吗?

谢谢!

2 个答案:

答案 0 :(得分:0)

Data Vault与持久性暂存区在我看来像苹果和梨一样-很难比较。 在不了解业务本体的情况下,您不应尝试定义Data Vault来捕获源数据-否则,您将在构建源系统保管库,这对业务几乎没有好处。 对我来说,在PSA或数据湖上构建数据仓库更有意义。将数据作为源系统的图像进行登陆,然后逐步从中构建可持续的数据收集。

答案 1 :(得分:0)

添加的复杂度与在Data Vault案例中较早引入的关系模型相对应。我猜这取决于要对数据建模的级别,并使其在不同的用例之间可重用,从而导致不同的数据集市。我的意思是,数据集市是为特定的业务案例设计的,而数据仓库模型的设计则是要进行总体设计(企业模型)。因此,数据集市 基于DV模型的数据根本不需要物理地体现任何数据。可以设置一个看起来像星型模式表的视图层,但是实际上具有:

•   Zero maintenance cost.
•   Zero storage costs.
•   High flexibility.

此外,很高兴知道数据在更一般的意义上(整个组织)是如何关联的-如果该信息和所提到的优势证明建立DV模型的额外工作是很难判断的。