应用错误收集

Hadoop在集群和独立系统中的处理时间

时间：2013-02-21 19:04:33

标签： ubuntu hadoop hbase distributed-computing

我已经在同一个hdfs之上建立了一个3节点hadoop集群（1个Namenode，2个数据节点）和hbase。每个节点都是我的Windows 8机器上运行的512 MB Ubuntu虚拟机盒图像（Intel i5,4GB RAM，2.4Ghz）
我已根据此博客配置了hbase-hadoop http://ankitasblogger.blogspot.in/2011/01/hadoop-cluster-setup.html

我写了一个程序，分析美国人口普查数据，大约有500,000条记录（减少集）。我只是在MAP任务中读取文件（来自hdfs）并存储它是HBASE。然后根据过滤器检索数据。

当我独立运行程序（512 MB虚拟机）hadoop-hbase时，大约需要23分钟。但是当我在集群中运行相同的jar（512 * 3 MB）时，它需要40分钟。

为什么群集需要更多时间来处理？还是预期的结果？

1 个答案:

答案 0 :(得分：1)

在虚拟机中运行集群只会减慢map-reduce（因为运行虚拟操作系统和多个hadoop实例的开销），特别是如果内存不足而且必须使用来自主持人。

请记住，虚拟机共享1个物理CPU，并且只能用于开发。