标签: apache-pig
我正在尝试使用逗号分隔的文档在PIG中使用TOKENIZE函数。我想分开逗号,但不是白色空间。例如,我想要一个列表 (汽车,玩具车,兔子)是((汽车),(玩具车),(兔子)不((汽车),(玩具),(汽车),(兔子))。 有办法吗?
答案 0 :(得分:1)
你有没看过STRSPLIT只是用逗号分割?
(适用于CHARARRAY,如TOKENIZE)
答案 1 :(得分:0)
替代方式,
您也可以尝试使用Flatten运算符
示例:
输入 - > (A,(B,C))
B = foreach A生成$ 0,flatten($ 1)
输出 - > (A,B,C)
使用Flatten和tokenize一起
您可以阅读单词计数问题Here