使用Piggybank用猪解析Pig

时间:2014-02-28 06:53:39

标签: xml regex apache-pig

我即将加载一个XML以便在Pig中进行处理并在某种程度上取得了成功。现在使用下面的单行XML标记进行处理,提供的正则表达式不起作用。

这是我的输入数据

Input Data

这是我的PigScript

PigScript

请告诉我正则表达式有什么问题?

谢谢, 卡莱

1 个答案:

答案 0 :(得分:0)

以下正则表达式适用于我。

b = foreach a生成REGEX_EXTRACT(x,'Id =“(?[^”] +)“',1),REGEX_EXTRACT(x,'UserId =”(?[^“] +)”',1 ),REGEX_EXTRACT(X, '名称= “([^?”] +)' “1),REGEX_EXTRACT(X, '日期= ”([^“] +?)”',1);

转储b;

这是输出。

(1815,829,学生,2014-01-18T16:02:02.837)

(1816,401,评论员,2014-01-18T17:07:19.713)

谢谢,

卡莱