amazon-s3 - AWS S3中数据的增量更新

不使用自然键的S3存储桶的增量更新

我需要设计一个etl流程。 OLTP系统通过文件共享客户，产品，活动和销售记录。我想将这些文件逐步传输到Aws S3存储桶中。

假设我要将客户文件传输到相关的AWS S3存储桶中。客户文件包含客户ID。此字段为个人身份信息。

在批量（初始）加载阶段，首先，我将生成一个新字段CUSTOMER_SK，它映射到客户ID。然后，我需要用customer_sk替换客户ID。
对于前。我的客户ID是9887345，我生成一个数字：93453423 我需要将客户ID值9887345替换为新值：93453423 最后，我可以将文件复制到AWS S3存储桶。我用customer_sk替换了客户ID。因此，AWS S3存储桶不包含PII数据。

在日常etl负载中，如果客户是新客户，那么我可以将其插入AWS S3。如果客户是现有客户，对于前。客户更改了他/她的出生年份字段。他/她可能已更正了出生年份字段，因此我需要更新AWS S3存储桶中的相关记录。但是，AWS S3存储桶不包括customer_id字段。而且OLTP系统不知道customer_sk字段。因此，我需要将customer_id值与customer_sk值交换。现在，我可以将文件复制到AWS S3。

由于法规的限制，安全部门不允许我们向Aws环境中的业务部门提供PII（个人身份信息）数据。

我们可以在日常工作中传输整个文件。文件传输需要时间，因此将所有历史数据传输到S3是不可行的。

如何实现此方案？我们是否需要在本地和AWS S3上运行etl作业？我想在AWS上构建其他流程。我只需要在本地交换ID字段。我不想为交换字段而在前提条件下建立etl作业。因为我不想在两个系统中都维护工作。

预先感谢

AWS S3中数据的增量更新

0 个答案: