我正在尝试学习Hadoop,我的服务器场拥有数百万个网页。我需要弄清楚哪些是最受欢迎的十大网页。如何在Hadoop中做到这一点?
答案 0 :(得分:2)
看看基本的Wordcount示例。 您只需将“word in text”的概念替换为“url”。
我刚才意识到我已经在github上有这样的东西了,作为我刚才写的一个库的一个例子:https://github.com/nielsbasjes/logparser/blob/master/examples/apache-hadoop-mapreduce/src/main/java/nl/basjes/hadoop/io/input/Wordcount.java