将文件从Internet直接下载到我的S3存储桶

时间:2015-08-24 02:27:13

标签: hadoop amazon-web-services amazon-s3 emr

我在AWS基础架构上使用EMR(Elastic MapReduce),为程序提供输入文件(大型数据集)的默认方式是将它们上传到S3存储桶并引用那些来自EMR的桶。

通常我将数据集下载到我的本地开发机器,然后将它们上传到S3,但这对于较大的文件来说变得越来越难,因为上传速度通常远低于下载速度。

我的问题是有没有办法从互联网上下载文件(给定他们的网址)直接进入S3,所以我不必将它们下载到我的本地机器,然后手动上传它们?

1 个答案:

答案 0 :(得分:2)

没有。您需要一个中介 - 通常,使用EC2实例而不是本地机器来提高速度。