假设以下数据架构: 源系统->数据仓库(使用数据仓库模型)->数据虚拟化->消费层(例如,BI工具和报告)
我了解到,对于数据仓库来说,关键原则之一是加载原始数据并保留所有来源的记录-因此,出于可追溯性/审计目的,请勿进行重复数据删除或转换。如果这是真的,那么转换将在哪里发生?
答案 0 :(得分:2)
是的,的确如此,“原始”数据保管库保留了加载时与源系统上相同的记录。
但是还有另一个概念,即“业务”数据仓库。这是所有逻辑和转换发生的地方。业务数据保管库不是原始数据保管库的完整副本,但是您可以创建集线器/链接/卫星/坑/桥以实现适合您需求的逻辑。
这样,从长远来看,它可以为您提供帮助。例如,如果您明年需要更改业务规则,则在过去的特定时间,您仍然拥有特定源系统的原始数据。如果您的逻辑有错误,那么您仍然有原始数据。
答案 1 :(得分:0)
根据我的经验,通常您具有以下架构:
有关Raw Vault和Business Vault之间的区别的更多信息,您可以在这里找到:Datavault - hard rules (rawvault) vs soft rules (businessvault)