针对EC2的Hadoop建议?

时间:2011-02-11 01:55:31

标签: amazon-ec2 hadoop mapreduce

在EC2中运行Hadoop时,我似乎有两个选择:

  • A:使用Hadoop附带的特定于EC2的shell脚本自行管理群集。
  • B:使用Elastic MapReduce,并为方便起见支付额外费用。

我倾向于B,但我很欣赏有经验的人提出的建议。以下是我的问题:

  1. 是否可以使用其中一种方法完成任务而不是另一种方法?
  2. 除了这两个我还有其他选择吗?
  3. 如果我选择B,回到A会有多容易?也就是说,供应商锁定的危险是什么?

3 个答案:

答案 0 :(得分:3)

第三种选择: 您可以使用apache whirr在ec2上设置hadoop群集(也支持rackspace)

答案 1 :(得分:1)

亚马逊弹性MapReduce(EMR)开发团队的人员告诉我,使用EMR至少还有两个其他优势:a)亚马逊正在积极地对用于的Hadoop代码库进行错误修复和性能增强。 EMR和b)亚马逊在EMR服务器和S3服务器之间使用高性能网络,这些网络可能在EC2服务器和S3服务器之间不可用。

更新:请参阅@mat的评论,驳斥使用EMR的传言优势。

答案 2 :(得分:0)

免责声明:我是Axemblr.com的创始人

您还可以使用商业替代品。 Axemblr Tool for Cloudera CDH3是我们正在构建的工具,只需几分钟即可部署集群(包括Cloudera Hue,Mahout& Pig)。

我们还在构建EMR的替代方案,从API角度完全兼容,针对私有云。

如果您想知道为什么在EC2而不是EMR上运行CDH是有意义的,请参阅:

http://www.quora.com/What-are-the-advantages-disadvantages-running-Clouderas-distribution-for-Hadoop-on-EC2-instances-rather-than-using-Amazons-Elastic-Map-Reduce-Service