hadoop job分割xml文件

时间:2012-05-15 01:40:54

标签: hadoop

我有1000个要处理的文件。每个文件由1000个串联在一起的XML文件组成。

我想使用Hadoop分别拆分每个XML文件。使用Hadoop做这件事的好方法是什么?

注意:我是Hadoop的新手。我打算使用Amazon EMR。

1 个答案:

答案 0 :(得分:3)

结帐Mahout's XmlInputFormat。令人遗憾的是,这是在Mahout,而不是核心发行。

至少以相同格式连接的XML文件是什么?如果是,请将START_TAG_KEYEND_TAG_KEY设置为每个文件的根目录。每个文件都会在Text中显示为一条map条记录。然后,您可以使用自己喜欢的Java XML解析器来完成工作。