日期仓库:何时进行清洁和转换?

时间:2016-11-29 11:19:45

标签: data-warehouse

我正在读一本书"使用数据保险库建模敏捷数据仓库" H. Hultgren撰写。他说:

  

EDW代表发生了什么 - 不是应该发生什么

何时进行清洁和可能的转换?在转换中,我的意思是值的stadartization,例如,性别列只能包含两个可能的值' f'和' m'而不是女性'或者'男性'或0或1)?

1 个答案:

答案 0 :(得分:1)

如果您通过ETL导入数据,那么这就是一个地方。或者您可以使用其他一些数据清理工具。这是一个非常普遍的问题。这取决于数据仓库的体系结构。

例如,您可能拥有一个加载数据并尝试自动清理数据的数据仓库,或者您可能拥有一个架构,其中每个“坏”记录都会转到批准区域以供人员清理。我可以向现实世界保证,没有商业用户希望从6个性别价值中挑选。

另一件事是你可能正在从三个不同的系统加载数据,这三种不同的表示在每个系统中都是完全有效的,但是最终用户不希望从6个选择中选择 - 他们希望数据到被洗净了。

我想也许这句话

  
    

EDW代表发生了什么 - 不是应该发生什么

  

是特定于数据保险库的事情,因为无论架构如何变化,DV都是关于建模和存储源系统数据的,我想在这种情况下,您会将数据库视为ODS并保留数据。 ,然后在进入报告星型模式的途中清理它