Question

是否有一个输入类来处理基于Hadoop中树结构的[多个]大型XML文件？我有一组具有相同模式的XML文件，但我需要将它们拆分为数据部分，而不是打破部分。

例如，XML文件将是：

<root>
  <parent> data </parent>
  <parent> more data</parent>
  <parent> even more data</parent>
</root>

我会将每个部分定义为： /根/父母。

我要问的是：Hadoop是否已包含记录输入阅读器？

Answer 1

我认为Cloud9 project at UMD可能对此有所帮助。

图书馆提供的XMLInputFormat class可能有用。

同样令人感兴趣的是Cloud9文档中的这个页面，它介绍了如何处理XML dump of Wikipedia in MapReduce。