Hadoop在集群和独立系统中的处理时间

时间:2013-02-21 19:04:33

标签: ubuntu hadoop hbase distributed-computing

我已经在同一个hdfs之上建立了一个3节点hadoop集群(1个Namenode,2个数据节点)和hbase。每个节点都是我的Windows 8机器上运行的512 MB Ubuntu虚拟机盒图像(Intel i5,4GB RAM,2.4Ghz)
我已根据此博客配置了hbase-hadoop http://ankitasblogger.blogspot.in/2011/01/hadoop-cluster-setup.html

我写了一个程序,分析美国人口普查数据,大约有500,000条记录(减少集)。我只是在MAP任务中读取文件(来自hdfs)并存储它是HBASE。然后根据过滤器检索数据。

当我独立运行程序(512 MB虚拟机)hadoop-hbase时,大约需要23分钟。但是当我在集群中运行相同的jar(512 * 3 MB)时,它需要40分钟。

为什么群集需要更多时间来处理?还是预期的结果?

1 个答案:

答案 0 :(得分:1)

在虚拟机中运行集群只会减慢map-reduce(因为运行虚拟操作系统和多个hadoop实例的开销),特别是如果内存不足而且必须使用来自主持人。

请记住,虚拟机共享1个物理CPU,并且只能用于开发。