使用猪操纵JSON

时间:2016-02-04 17:06:20

标签: json hadoop macros apache-pig bigdata

输入文件(ABC.txt): -

  

{“rollno”:“10000232”,“firstname”:“Tom”,“lastname:”peter“,”qualified“:”eng“,”Address1“:”block 3“,”Address2“:”lane“ 5" , “城市”: “加利福尼亚”, “邮政编码”: “10021”}

     

{“rollno”:“10000223”,“firstname”:“Tom”,“lastname:”john“,”qualified“:”doc“,”Address1“:”block 2“,”Address2“:”lane“ 2“,”City“:”california“,”zipcode“:”10021“}

     

{“rollno”:“10000432”,“firstname”:“Tom”,“lastname:”jim“,”qualified“:”eng“,”Address1“:”block 1“,”Address2“:”lane 1" , “城市”: “加利福尼亚”, “邮政编码”: “10021”}

     

{“rollno”:“10000523”,“firstname”:“Tom”,“lastname:”trek“,”qualified“:”doc“,”Address1“:”block 2“,”Address2“:”lane 2“,”City“:”california“,”zipcode“:”10021“}

     

{“rollno”:“10000632”,“firstname”:“Tom”,“lastname:”peter“,”qualified“:”eng“,”Address1“:”block 6“,”Address2“:”lane“ 6“,”City“:”california“,”zipcode“:”10021“}

业务规则 -

(1)写下两个Pig Macros如下: -       - 连接地址1,地址2,城市       - RollNo的前6位数  注意:宏将在脚本中重复使用

(2)打印所有字段:       A =使用JsonStorage加载'abc.txt'

(3)删除Address1,Address2,City并将其替换为步骤1中的连接

(4)删除Rollno。并用step1输出

替换它

想法是采用可配置的方法,因为step1(宏)将用于许多脚本。 想要在没有硬编码字段名称的情况下执行此操作。想法是拥有可以重复用于多个输入文件的代码。

非常感谢您的帮助

0 个答案:

没有答案