我在AWS S3中有一个每秒更新一次的文件(实际上是在收集新数据)。我想定期将收集的文件移动到我的本地服务器。以下是我正在考虑的一些事情。
由于S3基于网络负载的成本,运输需要以某种方式压缩以减少网络负担。
将数据移出AWS S3后,需要删除S3上的数据。换句话说,我的服务器上的数据和AWS上的数据之和应该是完整的数据集,并且这两个数据集之间应该存在交集。否则,下次我们移动数据时,我的服务器上的数据集会有重复项。
S3上的数据集一直在收集,新数据使用标准输入附加到文件中.cron作业上有一些东西用于收集数据。
这是一个伪代码,显示了如何在S3上构建文件的想法。
* * * * * nohup python collectData.py >> data.txt
这要求数据传输不能破坏管道,否则,新数据将丢失。
答案 0 :(得分:0)
其中一个选项是将S3存储桶作为本地目录(例如,使用RioFS项目)并使用标准shell工具(如rm,cp,mv ..)删除旧文件并上传新文件到Amazon S3。