应用错误收集

hadoop job分割xml文件

时间：2012-05-15 01:40:54

标签： hadoop

我有1000个要处理的文件。每个文件由1000个串联在一起的XML文件组成。

我想使用Hadoop分别拆分每个XML文件。使用Hadoop做这件事的好方法是什么？

注意：我是Hadoop的新手。我打算使用Amazon EMR。

1 个答案:

答案 0 :(得分：3)

结帐Mahout's XmlInputFormat。令人遗憾的是，这是在Mahout，而不是核心发行。

至少以相同格式连接的XML文件是什么？如果是，请将START_TAG_KEY和END_TAG_KEY设置为每个文件的根目录。每个文件都会在Text中显示为一条map条记录。然后，您可以使用自己喜欢的Java XML解析器来完成工作。