亚马逊S3文件的大数据压缩

时间:2014-06-13 15:29:33

标签: amazon-web-services amazon-ec2 amazon-s3 cloud s3cmd

我以对象的形式存储在亚马逊S3上的大量数据。

喜欢i拥有存储在亚马逊S3上的200多GB照片(约100000多个对象)的用户。每个对象都是一张照片,每个对象的大小平均为5MB。

现在我想给用户一个下载数据的链接。

目前正在做的事情。

  1. 使用S3cmd我将S3中的所有对象复制到EC2
  2. 然后使用 ZIP命令 TAR命令我创建一个 拉链。
  3. Zip处理完成后,我将zip文件移回S3。
  4. 然后创建一个带有链接的链接,我将其作为电子邮件发送给用户。
  5. 但是这个过程需要很长时间,大部分时间都会导致内存问题,存储问题和这个过程非常缓慢。

    我需要知道

    1. 有什么方法可以延长这个过程时间。
    2. 是否有任何第三方服务/工具,我可以创建快速zip 我的文件并发送给用户。
    3. 或任何其他第三方解决方案,我已准备好为此付费。

2 个答案:

答案 0 :(得分:1)

您在高级别跟随的方向是正确的。但是,没有任何直接的答案可能会一次性解决您的问题。

这些是你可以尝试做的事情

  1. 要求您的用户创建AWS账户(或创建IAM用户)并提供对该用户/账户的只读访问权限
  2. 在上传到S3的过程中,你可以将照片分成50s或100s的包装进行压缩,然后放入S3(从EC2开始,即在创建媒体时)
  3. 使用 - Amazon Import / Export
  4. 从S3导出到外部媒体

答案 1 :(得分:1)

尝试使用EMR(Elastic Map Reducer和S3distCp),这对您所需的情况很有帮助,对于EMR,您必须创建一个群集。和你的工作。