加载到数据仓库中时ETL的数据标准化设计

时间:2018-08-31 10:34:24

标签: etl data-warehouse datamodel

目前,我正在尝试为我的一位客户设计ETL。数据只是医院,实验室等的地址。典型的ETL处理包括

ETL步骤:

  1. 加工提取物

  2. 存储着陆

  3. 处理验证
  4. 加工清洁
  5. 存储-STAGING
  6. 处理-更多验证和重复数据删除(基本)
  7. 处理-转换
  8. 加载-数据仓库

现在我面临的问题是

**Source 1: CONTACT_DETAILS**
S1_ID    Name          email address              Address                 Pin 
101    Boston Hosp     boston@mail.com         12 EY, Sheffield Road    456453

**Source 2: CONTACT_DETAILS**
S2_ID  Name               email address      Address            Pin
102   Boston Hospitals    boston@mail.com    Sheffield Road      456453

当前它存储在我的Datawarehouse中

DWH.MASTER_CONTACT_DETAILS

CONTACT_ID   Name       email address           Address           Pin   Source_ID
101   Boston Hosp       boston@mail.com     12 EY,          456453  Source1
                                          Sheffield Road 
102   Boston Hospitals  boston@mail.com   Sheffield Road    456453  Source2

现在我们都知道它需要标准化。但是有人可以帮助我给出用于创建主标准contact_details的数据设计。我如何通过保留源记录引用(ID 101和102)来实现标准化,因为它由来自这些源的其他表引用。

设计的另一个限制是,我将CONTACT_DET的源文​​件全部是增量文件,而不是完整的处理文件。

我目前的想法是在MASTER_CONTACT_DETAILS中创建FK引用,并添加其他STANDARDIZED_CONTACT_DETAILS,在加载此MASTER_CONTACT_DETAILS表之后将对其进行处理。

有关如何设计的任何建议。

合乎逻辑的跟进问题(稍后应再发表)将是一种算法,可以在两张记录(这里是波士顿医院)的混乱中找到一个标准记录,而这些记录之间没有太多可比之处。

0 个答案:

没有答案