XMLLoader是使用Pig提取数据的唯一方法吗?

时间:2014-09-30 10:56:53

标签: xml apache-pig

我有一个带有一些标签和子标签的简单XML文件。

    <tag1 number = 1>
      <tag2 name="Name2" value=value2>something2</tag2>
      <tag3 name="Name3" value=value3>something3</tag3>
      <tag4 name="Name4" value=value4>
        <tag5 name="Name5" value=value5>something5</tag5>
        <tag5 name="Name5.1" value=value5.1>something5.1</tag5> <-- tag5 appears twice
        <tag6 name="Name6" value=value6>
          <tag7 name="Name7" value=value7>something7</tag7>
        </tag6>
        <tag8 name="Name8" value=value8>something8</tag8>
      </tag4>
    </tag1>
    <tag1 number = 2>
      <tag3 name="Name32" value=value32>something32</tag3>
      <tag2 name="Name22" value=value22>something22</tag2> <-different order
      <tag4 name="Name4" value=value4>
        <tag8 name="Name81" value=value81>something81</tag8> <- different order
        <tag6 name="Name6" value=value6>
          <tag7 name="Name7" value=value7>something7</tag7>
-- tag5 is missing, 
        </tag6>
      </tag4>
    </tag1>

piggybank中的XMLLoader是从XML文件中提取数据的唯一功能吗? 我找到了非常酷的函数XMLStreamingLoader(from Mortar site),但它不是开源的。
我真的需要使用REGEXP从XML标签中获取数据吗? 什么是标签是无序的还是可选的?

你能提供比XMLLoader更成熟的功能吗?

0 个答案:

没有答案