在hadoop中使用wikipedia数据集进行pagerank

时间:2013-07-02 17:48:30

标签: hadoop mapreduce wikipedia pagerank

我将使用apache hadoop在pagerank和维基百科数据集的反向索引上做一个项目。我下载了整个wiki转储 - http://download.wikimedia.org/enwiki/latest/enwiki-latest-pages-articles.xml.bz2。它解压缩到一个42 Gb .xml文件。我想以某种方式处理此文件以获取适合在pagerank中输入的数据和反向索引map-reduce algos。请帮忙!任何线索都会有所帮助。

2 个答案:

答案 0 :(得分:0)

你的问题对我来说不是很清楚。你需要什么样的想法?

首先要解决的问题是如何在MR作业中处理此xml文件。 MR框架不为xml文件提供任何内置的InputFormat。为此,您可能需要查看this

答案 1 :(得分:0)

您需要编写自己的Inputformat来处理XML。您还需要实现RecordReader以确保您的inputsplits具有完整形成的XML块而不仅仅是一行。请参阅http://www.undercloud.org/?p=408