我是 Hadoop 的新手。
最近我只是实现了WordCount示例。
但是当我在我的单个节点上运行这个程序时,有2个输入文件,只有9个字,这样做需要花费近33秒!太疯狂了,这让我很困惑!!!
任何人都可以告诉我这是正常还是一些???
如何解决此问题?请记住,我只创建了2个输入文件,其中包含9个单词。
提交主机地址:127.0.0.1
作业ACL:允许所有用户使用 工作设置:成功
现状:成功
开始于:Fri Aug 05 14:27:22 CST 2011
完成于:Fri Aug 05 14:27:53 CST 2011
完成时间:30秒
答案 0 :(得分:3)
这并不罕见。 Hadoop对大型数据集生效。您所看到的可能是Hadoop的初始启动时间。
答案 1 :(得分:3)
Hadoop对于非常小的作业效率不高,因为它需要更多时间进行JVM启动,进程初始化等。但是,通过启用JVM重用,可以在某种程度上对其进行优化。
http://hadoop.apache.org/common/docs/r0.20.2/mapred_tutorial.html#Task+JVM+Reuse
此外,Apache Hadoop
还有一些工作要做https://issues.apache.org/jira/browse/MAPREDUCE-1220
不确定将包含哪个版本或JIRA的状态。