使用Pig解析具有多个分隔符的数据

时间:2014-09-01 14:02:22

标签: hadoop apache-pig

我是猪的新手。解析这样的数据的有效方法是什么?我正在考虑在=运算符之后选择每个字段值,如日期,时间,devname等。

Jun 24 05:25:01 23.45.56.222 date=2014-06-24 time=05:04:43 devname=XX-FGT-Primary 
device_id=FG3K8A3408600390 log_id=0021000002 type=traffic subtype=allowed pri=notice 
vd=XX-Internet src=23.83.57.99 src_port=7569 src_int="amc-sw1/2" dst=23.91.19.16 
dst_port=343 dst_int="amc-sw1/1" SN=116445695565 status=accept policyid=2272 
dst_country="India" src_country="India" dir_disp=org tran_disp=noop service=HTTPS 
proto=6 duration=122 sent=124 rcvd=84 sent_pkt=3 rcvd_pkt=2    

任何代码段都会有所帮助。

1 个答案:

答案 0 :(得分:0)

我认为您正在寻找名为REGEX_EXTRACT_ALL的UDF。

对于代码段,请查看here