Question

目前，我正在尝试为我的一位客户设计ETL。数据只是医院，实验室等的地址。典型的ETL处理包括

ETL步骤：

加工提取物
存储着陆
处理验证
加工清洁
存储-STAGING
处理-更多验证和重复数据删除（基本）
处理-转换
加载-数据仓库

现在我面临的问题是

**Source 1: CONTACT_DETAILS**
S1_ID    Name          email address              Address                 Pin 
101    Boston Hosp     boston@mail.com         12 EY, Sheffield Road    456453

**Source 2: CONTACT_DETAILS**
S2_ID  Name               email address      Address            Pin
102   Boston Hospitals    boston@mail.com    Sheffield Road      456453

当前它存储在我的Datawarehouse中

DWH.MASTER_CONTACT_DETAILS

CONTACT_ID   Name       email address           Address           Pin   Source_ID
101   Boston Hosp       boston@mail.com     12 EY,          456453  Source1
                                          Sheffield Road 
102   Boston Hospitals  boston@mail.com   Sheffield Road    456453  Source2

现在我们都知道它需要标准化。但是有人可以帮助我给出用于创建主标准contact_details的数据设计。我如何通过保留源记录引用（ID 101和102）来实现标准化，因为它由来自这些源的其他表引用。

设计的另一个限制是，我将CONTACT_DET的源文件全部是增量文件，而不是完整的处理文件。

我目前的想法是在MASTER_CONTACT_DETAILS中创建FK引用，并添加其他STANDARDIZED_CONTACT_DETAILS，在加载此MASTER_CONTACT_DETAILS表之后将对其进行处理。

有关如何设计的任何建议。

合乎逻辑的跟进问题（稍后应再发表）将是一种算法，可以在两张记录（这里是波士顿医院）的混乱中找到一个标准记录，而这些记录之间没有太多可比之处。

加载到数据仓库中时ETL的数据标准化设计

0 个答案: