是否有一个输入类来处理基于Hadoop中树结构的[多个]大型XML文件?我有一组具有相同模式的XML文件,但我需要将它们拆分为数据部分,而不是打破部分。
例如,XML文件将是:
<root>
<parent> data </parent>
<parent> more data</parent>
<parent> even more data</parent>
</root>
我会将每个部分定义为: /根/父母。
我要问的是:Hadoop是否已包含记录输入阅读器?
答案 0 :(得分:1)
我认为Cloud9 project at UMD可能对此有所帮助。
图书馆提供的XMLInputFormat class可能有用。
同样令人感兴趣的是Cloud9文档中的这个页面,它介绍了如何处理XML dump of Wikipedia in MapReduce。