使用AWS EC2将大量文件放入S3存储桶

时间:2017-07-23 22:30:22

标签: java amazon-web-services amazon-s3 amazon-ec2

我正在尝试将大量文件(~50太字节)下载到S3存储桶中。问题是这些文件只能通过网站上的各种下载链接访问(它们不在我的硬盘上)。我可以直接将一小部分数据下载到我自己计算机的硬盘上,将其上传到S3存储桶,从硬盘驱动器中删除,然后重复另一部分,但我担心会这样做太长,使用太多带宽。相反,我希望我可以使用EC2实例做同样的事情,就像这个question建议的回答者一样,但是我很难用Java做这件事。

使用Java,请求和启动EC2实例似乎非常清楚;然而,实际使用实例有点模糊。我知道您可以使用EC2管理控制台直接连接到实例,我可以在连接到下载和上传文件的实例时手动运行脚本,但我更喜欢从我的计算机运行脚本来创建EC2实例然后使用实例来实现我的目标。这是因为稍后在我的项目中,我将每天从同一个网站下载一个文件,并且使用我的计算机上的Windows预定任务管理器来运行脚本比让EC2实例每天24小时运行并且每天都在运行更便宜那里。

简单地说,我如何使用Java来使用EC2实例?

2 个答案:

答案 0 :(得分:1)

我首先指出下载/上传50TB数据will take a very long time ...

选项1 - 使用Java

您正在做的事情可以通过AWS Java SDK完成。您需要开发下载所需文件的应用程序,然后使用SDK将这些文件上传到您的S3存储桶。

我建议不要采用这种方法,因为您要先为EC2实例带宽两倍的带宽,然后再支付S3存储桶。另外还有更简单的方法......

选项2 - 使用Lambda

根据您链接的答案中的建议,使用AWS Lambda service将远程文件上传到S3存储桶。您可以编写Java,NodeJS等。这将降低您的带宽成本,也意味着您不需要启动并部署到任何EC2实例。

其他要点

在从本地计算机上运行某些内容并每天处理的情况下,我会在您完成初始上传后解决此问题。试图一起解决这两个问题可能会让你头疼。

最后,另一个选项可能是AWS Snowball服务。他们将向您发送一个或多个您填写并发回的物理设备。可能不适合您的用例,但值得一提。

警告信息 - 使用50 TB数据时,请注意您将需要下载的带宽费用。上传。

答案 1 :(得分:1)

您的解决方案需要两个不同的阶段:

  1. 获取要下载的文件列表
  2. 下载文件
  3. 我建议分离这两个任务,因为列出文件的逻辑中的错误可能会在中途停止下载过程,一旦问题得到纠正就很难恢复。

    列出文件可能最好在本地计算机上完成,这很容易调试和跟踪进度。结果将是包含大量链接的文本文件。 (这在概念上类似于许多 scraper 实用程序。)

    第二部分(下载文件)可以在Amazon EC2上或通过AWS Lambda函数完成。

    使用Amazon EC2

    这将是一个直接的应用程序,读取您的文本文件,循环链接并下载文件。如果这是一次性要求,我不会投入太多时间来使用多线程你的应用程序。但是,这意味着您将无法充分利用网络带宽,并且每小时收取Amazon EC2费用。

    因此,我建议使用相当小的实例类型(每个都有可用的网络带宽有限),但并行运行多个实例,每个都有一部分您的文本文件列表。这样你就可以分而治之

    如果在中途出现问题,您可以随时调整代码,手动编辑文本文件以删除已完成的条目,然后继续。这是相当快速和肮脏的,但如果这只是一次性要求,那就很好。

    此外,我建议使用Amazon EC2 Spot Instances,这可以节省高达Amazon EC2成本的90%。如果现货价格上涨,则存在终止实例的风险,这将导致您需要一些额外的工作来确定恢复的位置,因此只需出价等于正常的按需价格且不太可能(但不能保证) )你的实例不会被终止。

    使用AWS Lambda函数

    每个AWS Lambda函数只能运行最多5分钟,并且只能在本地存储 500MB的数据。幸运的是,函数可以并行运行。

    因此,要使用AWS Lambda,您需要编写一个控制应用程序,为列表中的每个文件调用AWS Lambda函数。如果任何文件超过500MB,则需要特殊处理。

    编写,调试和监视这样的并行分布式应用程序可能不值得为一次性任务付出努力。调试任何问题并从错误中恢复会更加困难。 (但是,如果您对此流程有持续的业务需求,那么它将是持续下载的理想方式。)

    底线:我建议您在本地计算机上编写和调试下载程序应用程序(包含一小部分测试文件),然后使用多个并行运行的Amazon EC2竞价型实例来下载文件并将它们上传到Amazon S3。从一个实例和一个小列表开始测试设置,然后与更大的列表并行。玩得开心!