我将使用apache hadoop在pagerank和维基百科数据集的反向索引上做一个项目。我下载了整个wiki转储 - http://download.wikimedia.org/enwiki/latest/enwiki-latest-pages-articles.xml.bz2。它解压缩到一个42 Gb .xml文件。我想以某种方式处理此文件以获取适合在pagerank中输入的数据和反向索引map-reduce algos。请帮忙!任何线索都会有所帮助。
答案 0 :(得分:0)
你的问题对我来说不是很清楚。你需要什么样的想法?
首先要解决的问题是如何在MR作业中处理此xml文件。 MR框架不为xml文件提供任何内置的InputFormat。为此,您可能需要查看this。
答案 1 :(得分:0)
您需要编写自己的Inputformat来处理XML。您还需要实现RecordReader以确保您的inputsplits具有完整形成的XML块而不仅仅是一行。请参阅http://www.undercloud.org/?p=408。