Hadoop WordCount示例问题,我是否需要进行一些性能调优?

时间:2011-08-05 07:48:28

标签: java hadoop

我是 Hadoop 的新手。

最近我只是实现了WordCount示例。

但是当我在我的单个节点上运行这个程序时,有2个输入文件,只有9个字,这样做需要花费近33秒!太疯狂了,这让我很困惑!!!

任何人都可以告诉我这是正常还是一些???

如何解决此问题?请记住,我只创建了2个输入文件,其中包含9个单词。

  

提交主机地址:127.0.0.1
  作业ACL:允许所有用户使用   工作设置:成功
  现状:成功
  开始于:Fri Aug 05 14:27:22 CST 2011
  完成于:Fri Aug 05 14:27:53 CST 2011
  完成时间:30秒

2 个答案:

答案 0 :(得分:3)

这并不罕见。 Hadoop对大型数据集生效。您所看到的可能是Hadoop的初始启动时间。

答案 1 :(得分:3)

Hadoop对于非常小的作业效率不高,因为它需要更多时间进行JVM启动,进程初始化等。但是,通过启用JVM重用,可以在某种程度上对其进行优化。

http://hadoop.apache.org/common/docs/r0.20.2/mapred_tutorial.html#Task+JVM+Reuse

此外,Apache Hadoop

还有一些工作要做

https://issues.apache.org/jira/browse/MAPREDUCE-1220

不确定将包含哪个版本或JIRA的状态。