在PIG中使用TOKENIZE

时间:2011-11-17 22:15:28

标签: apache-pig

我正在尝试使用逗号分隔的文档在PIG中使用TOKENIZE函数。我想分开逗号,但不是白色空间。例如,我想要一个列表 (汽车,玩具车,兔子)是((汽车),(玩具车),(兔子)不((汽车),(玩具),(汽车),(兔子))。 有办法吗?

2 个答案:

答案 0 :(得分:1)

你有没看过STRSPLIT只是用逗号分割?

(适用于CHARARRAY,如TOKENIZE)

答案 1 :(得分:0)

替代方式,

您也可以尝试使用Flatten运算符

示例:

输入 - > (A,(B,C))

B = foreach A生成$ 0,flatten($ 1)

输出 - > (A,B,C)

使用Flatten和tokenize一起

您可以阅读单词计数问题Here