将大型XML文件拆分为Hadoop的可管理部分

时间:2010-03-03 19:36:51

标签: xml hadoop

是否有一个输入类来处理基于Hadoop中树结构的[多个]大型XML文件?我有一组具有相同模式的XML文件,但我需要将它们拆分为数据部分,而不是打破部分。

例如,XML文件将是:

<root>
  <parent> data </parent>
  <parent> more data</parent>
  <parent> even more data</parent>
</root>

我会将每个部分定义为: /根/父母。

我要问的是:Hadoop是否已包含记录输入阅读器?

1 个答案:

答案 0 :(得分:1)

我认为Cloud9 project at UMD可能对此有所帮助。

图书馆提供的XMLInputFormat class可能有用。

同样令人感兴趣的是Cloud9文档中的这个页面,它介绍了如何处理XML dump of Wikipedia in MapReduce