确定。我已经完成了 wordcount hadoop-program。但是我如何计算统计量(哪个词大多数时候使用,哪个平均时间和哪个词最少使用的次数)?
我需要制作几个缩减器吗?
对不起。我刚才是Hadoop的新手,但对我来说这非常有趣。
感谢您的时间。
答案 0 :(得分:2)
这是一个非常广泛的问题,但我会指出你this book的方向。
我将对第一个问题的技巧提示:您可以为每个单词输出一个标记值(例如,以(*,word)
对的形式),然后使用reduce阶段每个(*,word)
(分区,以便您只查看元组的第二个元素)到它出现的次数。
然后,您可以或多或少地使用其余的hadoop机器(特别是更改排序顺序),作为前一种技术的变体,以便在那里使用大部分。