我有1000个要处理的文件。每个文件由1000个串联在一起的XML文件组成。
我想使用Hadoop分别拆分每个XML文件。使用Hadoop做这件事的好方法是什么?
注意:我是Hadoop的新手。我打算使用Amazon EMR。
答案 0 :(得分:3)
结帐Mahout's XmlInputFormat。令人遗憾的是,这是在Mahout,而不是核心发行。
至少以相同格式连接的XML文件是什么?如果是,请将START_TAG_KEY
和END_TAG_KEY
设置为每个文件的根目录。每个文件都会在Text
中显示为一条map
条记录。然后,您可以使用自己喜欢的Java XML解析器来完成工作。