我正在寻找开发ETL流程的最佳实践,该流程可用于提取公司数据库中任何客户的数据。
要注意的是,我正在构建的ETL中的查询依赖于特定于客户的编码。例如,下面是一个示例表,用于根据客户为每个员工输入的代码来计算员工保留率:
EmployeeID EmployeeTenure EmployeeStatus EmployerID
111 12.7 A 100001
112 1.4 FT 100001
113 4.5 FT 100001
114 0.6 O 100001
115 5.9 P 100001
在此字段中,EmployeeStatus
字段包含用于定义每个员工在公司中的当前状态的代码。这些代码中的一些表示该雇员仍在工作,其他一些表示裁员,其他一些表示解雇。但是,每个客户都可以设置自己的代码以指示员工的状态。
现在,我可以使用此表来计算ETL流程中Customer#100001员工的总体保留率;但是,所有其他客户在“ EmployeeStatus”字段中将具有完全不同的代码值,这使我无法编写通用查询来计算任何给定客户的保留率。
我需要一种编写查询的方法,该查询获取正在运行ETL流程的客户的保留代码,然后在运行ETL时将这些代码即时输入到查询中。
我相信我过去已经使用Google表格看到了这一点。每个客户都有自己的Google表格,并且表格中的每个标签都与ETL的一部分相关,该ETL包含该客户特定的代码值。但是,经过彻底的谷歌搜索之后,我还没有看到它是如何完成的。我什至不知道这是否是最好的策略。
有人可以为我提供有关此类ETL实施最佳实践的有用链接或资源吗?
谢谢!