目前,我正在尝试为我的一位客户设计ETL。数据只是医院,实验室等的地址。典型的ETL处理包括
ETL步骤:
加工提取物
存储着陆
现在我面临的问题是
**Source 1: CONTACT_DETAILS**
S1_ID Name email address Address Pin
101 Boston Hosp boston@mail.com 12 EY, Sheffield Road 456453
**Source 2: CONTACT_DETAILS**
S2_ID Name email address Address Pin
102 Boston Hospitals boston@mail.com Sheffield Road 456453
当前它存储在我的Datawarehouse中
DWH.MASTER_CONTACT_DETAILS
CONTACT_ID Name email address Address Pin Source_ID
101 Boston Hosp boston@mail.com 12 EY, 456453 Source1
Sheffield Road
102 Boston Hospitals boston@mail.com Sheffield Road 456453 Source2
现在我们都知道它需要标准化。但是有人可以帮助我给出用于创建主标准contact_details的数据设计。我如何通过保留源记录引用(ID 101和102)来实现标准化,因为它由来自这些源的其他表引用。
设计的另一个限制是,我将CONTACT_DET的源文件全部是增量文件,而不是完整的处理文件。
我目前的想法是在MASTER_CONTACT_DETAILS中创建FK引用,并添加其他STANDARDIZED_CONTACT_DETAILS,在加载此MASTER_CONTACT_DETAILS表之后将对其进行处理。
有关如何设计的任何建议。
合乎逻辑的跟进问题(稍后应再发表)将是一种算法,可以在两张记录(这里是波士顿医院)的混乱中找到一个标准记录,而这些记录之间没有太多可比之处。