PIG - 在GROUP函数之后定义用于包的分隔符

时间:2013-06-17 16:03:47

标签: apache-pig

在Pig中,我正在加载和分组两个文件。我最终得到了类似的东西:

A = LOAD 'File1' Using PigStorage('\t');
B = LOAD 'File2' Using PigStorage('\t');
C = COGROUP A BY $0, B BY $0;
STORE C INTO 'Output' USING PigStorage('\t');

输出:

123 {(123,XYZ,456)} {(123,QRS,889,QWER)}

如果第一个字段是组密钥,则第一个包来自File1,下一个包来自File2。这三个部分使用PigStorage('\ t')子句中标识的任何内容相互分隔。

问题:如何强制Pig用逗号以外的方式分隔行李?在我的真实数据中,有逗号存在,所以我需要用制表符分隔。

期望的输出:

123 {(123\tXYZ\t456)} {(123\tQRS\t889\tQWER)}

1 个答案:

答案 0 :(得分:0)

这似乎是猪的一个未解决的问题(截至2013年6月)。有关详细信息,请参阅相应的JIRA。在问题解决之前,您可以更改输入数据。