我想编写一个自定义PIG加载程序来将记录从多行格式加载到单行格式。后来我想比较每个子记录。 怎么写这样的东西?
这是文件格式 - 输入
File :
REC|**Record_1**|ABC|DEF|GEH|1234
SUB_REC1|111|222|333|444|5555
SUB_REC1|AAA|BBB|CCC|DDD
SUB_REC2|EEE|FFF|GGG|HHH
SUB_REC2|III|JJJ
REC|**Record_2**|XYZ|MNO|PQR|1234
SUB_REC1|111|222|333|444|5555
SUB_REC1|AAA|BBB|CCC|DDD
SUB_REC2|EEE|FFF|GGG|HHH
SUB_REC2|III|JJJ
预期产出:
**Record_1**:REC|**Record_1**|ABC|DEF|GEH|1234~SUB_REC1|111|222|333|444|5555~SUB_REC1|AAA|BBB|CCC|DDD~SUB_REC2|EEE|FFF|GGG|HHH~SUB_REC2|III|JJJ
**Record_2**:REC|**Record_2**|XYZ|MNO|PQR|1234~SUB_REC1|111|222|333|444|5555~SUB_REC1|AAA|BBB|CCC|DDD~SUB_REC2|EEE|FFF|GGG|HHH~SUB_REC2|III|JJJ