使用Gzip将更改的文件移动到新服务器

时间:2013-10-16 15:16:35

标签: amazon-web-services amazon-s3

我在AWS S3中有一个每秒更新一次的文件(实际上是在收集新数据)。我想定期将收集的文件移动到我的本地服务器。以下是我正在考虑的一些事情。

  1. 由于S3基于网络负载的成本,运输需要以某种方式压缩以减少网络负担。

  2. 将数据移出AWS S3后,需要删除S3上的数据。换句话说,我的服务器上的数据和AWS上的数据之和应该是完整的数据集,并且这两个数据集之间应该存在交集。否则,下次我们移动数据时,我的服务器上的数据集会有重复项。

  3. S3上的数据集一直在收集,新数据使用标准输入附加到文件中.cron作业上有一些东西用于收集数据。

  4. 这是一个伪代码,显示了如何在S3上构建文件的想法。

    * * * * * nohup python collectData.py >> data.txt
    

    这要求数据传输不能破坏管道,否则,新数据将丢失。

1 个答案:

答案 0 :(得分:0)

其中一个选项是将S3存储桶作为本地目录(例如,使用RioFS项目)并使用标准shell工具(如rm,cp,mv ..)删除旧文件并上传新文件到Amazon S3。