我可能有一个相当小的集群,为了测试它,我使用了https://hadoop.apache.org/docs/stable1/mapred_tutorial.html中的两个wordcount版本,并习惯了hadoop本身的hadoop。*。示例。
现在对于“问题”,wordcount的两个版本有两个完全不同的执行时间。版本1比版本2快5倍。我还对代码进行了一些修改,使其更加相似,但仍显示出这种令人难以置信的差异。
有人可以解释这种行为,还是有问题呢?如果是这样的话?
答案 0 :(得分:0)
版本2只是做了更多的事情,即它使用DistributedCache来跳过与模式匹配的单词。