存储大量xml文档

时间:2015-08-03 18:41:59

标签: amazon-web-services amazon-s3

我需要在AWS中存储大量的xml文档。预计约为1,000~3,000 /天(700,000 /年),最小存储期为5年。这个xml文档的中等大小大约是10 KB,所以每年需要7 GB的数据。

这些文件是逐个生成的,但访问它们的要求很低,因为它是法律要求,商业信息已经存在于数据库中。

此文件具有由法律规则组成的内部唯一键(44个数字字符),并且使用基于此键的名称保存文件是安全的。

由于成本原因,S3看起来不错,但我会处理大量额外的文件识别。

EBS更传统,我可以使用简单的文件夹结构(每个客户端),并且即使在束文件中也可以使用简单的恢复方式存储文件。

EFS的另一个选择看起来很有希望,但我没有AWS的经验,所以我很感激社区的意见。

2 个答案:

答案 0 :(得分:3)

对于您拥有的数据量(7GB),只需使用S3即可。不要打扰冰川。

同样对于这种数据卷是完全可行的,以便将它全部缓存在一台机器上并定期与S3同步(即你可以把它放在你想要的任何目录结构中,并在一个简单的cron作业中使用s3cmd) 。它应该足够好,并允许您在机器发生故障时进行恢复。

如果担心数据的安全性,请使用s3客户端加密。

答案 1 :(得分:1)

EBS和弹性文件系统方法主要用于基于文件系统和基于频繁访问的用例 - 它们比S3贵得多。

我想推荐S3 + Amazon Glacier的方法。您可以方便地使用生命周期规则将数据从S3无缝移动到Glacier。

冰川的成本几乎是每月每GB 1美分 - 但您需要了解检索过程需要4到6个小时。

使用S3和冰川方法 - 您永远不会耗尽空间或需要担心可扩展性方面 - 与您需要管理EC2实例以访问/存储数据的EBS或EFS不同。