在EC2中运行Hadoop时,我似乎有两个选择:
我倾向于B,但我很欣赏有经验的人提出的建议。以下是我的问题:
答案 0 :(得分:3)
第三种选择: 您可以使用apache whirr在ec2上设置hadoop群集(也支持rackspace)
答案 1 :(得分:1)
亚马逊弹性MapReduce(EMR)开发团队的人员告诉我,使用EMR至少还有两个其他优势:a)亚马逊正在积极地对用于的Hadoop代码库进行错误修复和性能增强。 EMR和b)亚马逊在EMR服务器和S3服务器之间使用高性能网络,这些网络可能在EC2服务器和S3服务器之间不可用。
更新:请参阅@mat的评论,驳斥使用EMR的传言优势。
答案 2 :(得分:0)
免责声明:我是Axemblr.com的创始人
您还可以使用商业替代品。 Axemblr Tool for Cloudera CDH3是我们正在构建的工具,只需几分钟即可部署集群(包括Cloudera Hue,Mahout& Pig)。
我们还在构建EMR的替代方案,从API角度完全兼容,针对私有云。
如果您想知道为什么在EC2而不是EMR上运行CDH是有意义的,请参阅: