应用错误收集

前N个最受欢迎的网站

时间：2017-09-24 09:59:15

标签： hadoop

我正在尝试学习Hadoop，我的服务器场拥有数百万个网页。我需要弄清楚哪些是最受欢迎的十大网页。如何在Hadoop中做到这一点？

1 个答案:

答案 0 :(得分：2)

看看基本的Wordcount示例。您只需将“word in text”的概念替换为“url”。

我刚才意识到我已经在github上有这样的东西了，作为我刚才写的一个库的一个例子：https://github.com/nielsbasjes/logparser/blob/master/examples/apache-hadoop-mapreduce/src/main/java/nl/basjes/hadoop/io/input/Wordcount.java