标签: amazon-s3 aws-lambda etl aws-glue
在我的ETL导入期间,某些预同步条目由我的源多次提供(因为该服务已更新),因此在AWS中多次导入。我想实现一个结构,如果一个条目已经存在,它将覆盖该条目(接近键值存储,几行更新两次)。
我的要求是要对1 TB的数据进行操作并对胶水进行操作(或可能发生红移)。
我实现了以下解决方案:
这是正确的进行方式吗? 即使我担心原始数据中有大量单独的文件(每个条目1个文件),这对我个人而言也是正确的。
谢谢
雨果