AWS S3中数据的增量更新

时间:2018-10-22 10:57:38

标签: amazon-s3 etl data-pipeline

不使用自然键的S3存储桶的增量更新

我需要设计一个etl流程。 OLTP系统通过文件共享客户,产品,活动和销售记录。我想将这些文件逐步传输到Aws S3存储桶中。

假设我要将客户文件传输到相关的AWS S3存储桶中。 客户文件包含客户ID。此字段为个人身份信息。

在批量(初始)加载阶段,      首先,我将生成一个新字段CUSTOMER_SK,它映射到客户ID。      然后,我需要用customer_sk替换客户ID。
           对于前。我的客户ID是9887345,我生成一个数字:93453423                 我需要将客户ID值9887345替换为新值:93453423      最后,我可以将文件复制到AWS S3存储桶。      我用customer_sk替换了客户ID。因此,AWS S3存储桶不包含PII数据。

在日常etl负载中,      如果客户是新客户,那么我可以将其插入AWS S3。      如果客户是现有客户,         对于前。客户更改了他/她的出生年份字段。         他/她可能已更正了出生年份字段,因此我需要更新AWS S3存储桶中的相关记录。         但是,AWS S3存储桶不包括customer_id字段。而且OLTP系统不知道customer_sk字段。因此,我需要将customer_id值与customer_sk值交换。         现在,我可以将文件复制到AWS S3。

由于法规的限制,安全部门不允许我们向Aws环境中的业务部门提供PII(个人身份信息)数据。

我们可以在日常工作中传输整个文件。文件传输需要时间,因此将所有历史数据传输到S3是不可行的。

如何实现此方案? 我们是否需要在本地和AWS S3上运行etl作业?我想在AWS上构建其他流程。 我只需要在本地交换ID字段。我不想为交换字段而在前提条件下建立etl作业。 因为我不想在两个系统中都维护工作。

预先感谢

0 个答案:

没有答案