比较Hadoop中的文件 - 自定义PIG加载程序

时间:2015-01-27 07:29:54

标签: file hadoop apache-pig

我想编写一个自定义PIG加载程序来将记录从多行格式加载到单行格式。后来我想比较每个子记录。 怎么写这样的东西?

这是文件格式 - 输入

File : 
REC|**Record_1**|ABC|DEF|GEH|1234
SUB_REC1|111|222|333|444|5555
SUB_REC1|AAA|BBB|CCC|DDD
SUB_REC2|EEE|FFF|GGG|HHH
SUB_REC2|III|JJJ
REC|**Record_2**|XYZ|MNO|PQR|1234
SUB_REC1|111|222|333|444|5555
SUB_REC1|AAA|BBB|CCC|DDD
SUB_REC2|EEE|FFF|GGG|HHH
SUB_REC2|III|JJJ

预期产出:

**Record_1**:REC|**Record_1**|ABC|DEF|GEH|1234~SUB_REC1|111|222|333|444|5555~SUB_REC1|AAA|BBB|CCC|DDD~SUB_REC2|EEE|FFF|GGG|HHH~SUB_REC2|III|JJJ
**Record_2**:REC|**Record_2**|XYZ|MNO|PQR|1234~SUB_REC1|111|222|333|444|5555~SUB_REC1|AAA|BBB|CCC|DDD~SUB_REC2|EEE|FFF|GGG|HHH~SUB_REC2|III|JJJ

0 个答案:

没有答案