应用错误收集

Hadoop的。带统计的Wordcount

时间：2013-08-01 20:29:36

标签： java hadoop

确定。我已经完成了 wordcount hadoop-program。但是我如何计算统计量（哪个词大多数时候使用，哪个平均时间和哪个词最少使用的次数）？

我需要制作几个缩减器吗？

对不起。我刚才是Hadoop的新手，但对我来说这非常有趣。

感谢您的时间。

1 个答案:

答案 0 :(得分：2)

这是一个非常广泛的问题，但我会指出你this book的方向。

我将对第一个问题的技巧提示：您可以为每个单词输出一个标记值（例如，以(*,word)对的形式），然后使用reduce阶段每个(*,word)（分区，以便您只查看元组的第二个元素）到它出现的次数。

然后，您可以或多或少地使用其余的hadoop机器（特别是更改排序顺序），作为前一种技术的变体，以便在那里使用大部分。