使用HADOOP mapreduce pgm计算XML中的每个Text值

时间:2013-03-19 10:41:55

标签: xml hadoop mapreduce

我是Hadoop的新手。我需要在java中使用mapreduce程序解析一个小的xml文件。我正在使用hadoop 1.0.4 说我的xml文件是

<configuration>
<property>
 <name>adv</name>
 <value>a</value>
 <dup>school</dup>
</property>
<property>
 <name>aghy</name>
 <value>a</value>
 <dup>bk</dup>
</property>
</configuration>

我需要这样的输出 adv 1 a 2 aghy 1 school 1 bk 1

我如何编辑代码https://github.com/studhadoop/xmlparsing-hadoop/blob/master/XmlParser11.java。任何有用的想法。 请帮助我。

1 个答案:

答案 0 :(得分:1)

你需要做一些事情:

  • 用于处理XML文件的输入格式,建议您查看Mahout's XMLInputFormat
  • 传递给映射器(SAX或DOM)的XML String的解析器,可能定义一些要绑定的JAXB对象

以及一些有用的链接: