Question

我在AWS S3中有一个每秒更新一次的文件（实际上是在收集新数据）。我想定期将收集的文件移动到我的本地服务器。以下是我正在考虑的一些事情。

由于S3基于网络负载的成本，运输需要以某种方式压缩以减少网络负担。
将数据移出AWS S3后，需要删除S3上的数据。换句话说，我的服务器上的数据和AWS上的数据之和应该是完整的数据集，并且这两个数据集之间应该存在交集。否则，下次我们移动数据时，我的服务器上的数据集会有重复项。
S3上的数据集一直在收集，新数据使用标准输入附加到文件中.cron作业上有一些东西用于收集数据。

这是一个伪代码，显示了如何在S3上构建文件的想法。

* * * * * nohup python collectData.py >> data.txt

这要求数据传输不能破坏管道，否则，新数据将丢失。

Answer 1

其中一个选项是将S3存储桶作为本地目录（例如，使用RioFS项目）并使用标准shell工具（如rm，cp，mv ..）删除旧文件并上传新文件到Amazon S3。