S3上的ETL:重复行:如何更新旧条目?

时间:2019-05-02 14:23:16

标签: amazon-s3 aws-lambda etl aws-glue

在我的ETL导入期间,某些预同步条目由我的源多次提供(因为该服务已更新),因此在AWS中多次导入。我想实现一个结构,如果一个条目已经存在,它将覆盖该条目(接近键值存储,几行更新两次)。

我的要求是要对1 TB的数据进行操作并对胶水进行操作(或可能发生红移)。

我实现了以下解决方案:

  • 我从源头读取了数据
  • 我通过选择内容的唯一标识符作为文件名来将每个条目保存在不同的文件中。
  • 我用粘合爬行器索引原始数据,该爬行器扫描了S3上的新文件
  • 我运行粘合作业以将原始数据转换为OLAP兼容格式(镶木地板)。

这是正确的进行方式吗? 即使我担心原始数据中有大量单独的文件(每个条目1个文件),这对我个人而言也是正确的。

谢谢

雨果

0 个答案:

没有答案