解析Pig中的多层XML

时间:2018-08-23 11:15:06

标签: xml-parsing apache-pig

我正在尝试解析Pig中的多级xml。 当我在正则表达式中按如下所示给标签名时,它仅获取第一条记录。

REGISTER piggybank.jar
A =  LOAD 'sample1.xml' using org.apache.pig.piggybank.storage.XMLLoader('dummy_parent_tag') as (data:chararray);
B = foreach A GENERATE FLATTEN(REGEX_EXTRACT_ALL(data,'(?s)<dummy_parent_tag>.*?<cmm11:nameFull>([^>]*?)</cmm11:nameFull>.*?<cmm11:type>([^>]*?)</cmm11:type>.*?</dummy_parent_tag>'))

如何扩展用于解析多级xml的脚本?

0 个答案:

没有答案