WordCount版本不同的执行时间

时间:2014-02-12 14:03:55

标签: hadoop

我可能有一个相当小的集群,为了测试它,我使用了https://hadoop.apache.org/docs/stable1/mapred_tutorial.html中的两个wordcount版本,并习惯了hadoop本身的hadoop。*。示例。

现在对于“问题”,wordcount的两个版本有两个完全不同的执行时间。版本1比版本2快5倍。我还对代码进行了一些修改,使其更加相似,但仍显示出这种令人难以置信的差异。

有人可以解释这种行为,还是有问题呢?如果是这样的话?

1 个答案:

答案 0 :(得分:0)

版本2只是做了更多的事情,即它使用DistributedCache来跳过与模式匹配的单词。