Question

我是Hadoop的新手。我需要在java中使用mapreduce程序解析一个小的xml文件。我正在使用hadoop 1.0.4 说我的xml文件是

<configuration>
<property>
 <name>adv</name>
 <value>a</value>
 <dup>school</dup>
</property>
<property>
 <name>aghy</name>
 <value>a</value>
 <dup>bk</dup>
</property>
</configuration>

我需要这样的输出 adv 1 a 2 aghy 1 school 1 bk 1

我如何编辑代码https://github.com/studhadoop/xmlparsing-hadoop/blob/master/XmlParser11.java。任何有用的想法。请帮助我。

Answer 1

你需要做一些事情：

用于处理XML文件的输入格式，建议您查看Mahout's XMLInputFormat
传递给映射器（SAX或DOM）的XML String的解析器，可能定义一些要绑定的JAXB对象

以及一些有用的链接：

Parsing XmlInputFormat element larger than hdfs block size

使用HADOOP mapreduce pgm计算XML中的每个Text值

1 个答案: