在Pig中,我正在加载和分组两个文件。我最终得到了类似的东西:
A = LOAD 'File1' Using PigStorage('\t');
B = LOAD 'File2' Using PigStorage('\t');
C = COGROUP A BY $0, B BY $0;
STORE C INTO 'Output' USING PigStorage('\t');
输出:
123 {(123,XYZ,456)} {(123,QRS,889,QWER)}
如果第一个字段是组密钥,则第一个包来自File1,下一个包来自File2。这三个部分使用PigStorage('\ t')子句中标识的任何内容相互分隔。
问题:如何强制Pig用逗号以外的方式分隔行李?在我的真实数据中,有逗号存在,所以我需要用制表符分隔。
期望的输出:
123 {(123\tXYZ\t456)} {(123\tQRS\t889\tQWER)}