在Amazon ec2:多节点集群上运行hadoop作业

时间:2011-12-13 08:23:38

标签: amazon-ec2 hadoop mapreduce

我必须在Amazon EC2集群上运行hadoop mapreduce作业。

我尝试使用现有的AMI进行设置。但是在启动master和客户端之后,“jps”没有列出任何节点。

即使在使用公共hadoop AMI之后,我们还必须为主人和奴隶进行hadoop设置吗?主人如何知道奴隶的IP地址?

任何人都可以指导我一些好的文件。 我现在正在敲打这个超过12小时。

有人可以帮忙吗?

感谢。

2 个答案:

答案 0 :(得分:2)

马修建议的另一种选择是使用Whirr。

Whirr使得在亚马逊上部署Hadoop集群变得非常容易,而且您不必为mapreduce实例付费。您可以控制群集的版本。

这是项目主页: http://whirr.apache.org/

以下是安装Hadoop的快速入门指南。运行Hadoop集群需要5分钟。 http://whirr.apache.org/docs/0.6.0/quick-start-guide.html

答案 1 :(得分:1)

我会使用亚马逊的Elastic MapReduce框架。你可以动态地旋转机器和机器。群集相似,你不必担心配置他们互相交谈。

http://aws.amazon.com/elasticmapreduce/

它被许多人使用,而且它最可靠。它将为您节省通常用于设置和管理集群的TON工作量。只有一件事与常规的hadoop不同 - 最好把东西放在S3而不是HDFS(因为集群是瞬态的,所以HDFS数据随着集群而消失)。