通过Amazon EC2 Hadoop下载许多大文件

时间:2012-02-13 11:16:19

标签: python hadoop amazon-ec2

我正在考虑在亚马逊ec2上启动一个hadoop集群来下载几万个文件,然后对它们进行一些处理但是在做了很多工作之前我想知道是否有人比hadoop更有经验我觉得有可能吗?我对能够在hadoop奴隶上下载文件有一些疑问。

如果您认为这是可能的,我可以期望在amazon ec2上运行的每个从站都有不同的IP地址吗?

我想使用python来完成大部分工作(例如urllib2模块下载)和尽可能少的java。

1 个答案:

答案 0 :(得分:0)

可以将数据下载到ec2上的hadoop上。 Hadoop有一个分布式文件系统(HDFS),负责将数据块放置到从属设备上,并且还支持配置中指定的复制因子。

ec2中的从站有不同的IP地址。