应用错误收集

在我的ETL导入期间，某些预同步条目由我的源多次提供（因为该服务已更新），因此在AWS中多次导入。我想实现一个结构，如果一个条目已经存在，它将覆盖该条目（接近键值存储，几行更新两次）。

我的要求是要对1 TB的数据进行操作并对胶水进行操作（或可能发生红移）。

我实现了以下解决方案：

这是正确的进行方式吗？即使我担心原始数据中有大量单独的文件（每个条目1个文件），这对我个人而言也是正确的。

谢谢

雨果