我是猪的新手,我正在尝试编写一个字数统计程序。
从文本中获取单词的一种方法是使用TOKENIZE
函数:
WORDS = foreach INPUT generate flatten(TOKENIZE(text)) AS word;
但是我只想分裂空白,而TOKENIZE
也会像逗号一样分裂。我该怎么做?我尝试使用STRSPLIT(text, ' ')
,但STRSPLIT
似乎返回了一个元组而TOKENIZE
返回了一个包,所以我不确定如何使用STRSPLIT
来实现此目的。
答案 0 :(得分:2)
这取决于您的输入数据是什么样的,但以下内容可能对您有用:
此外,可以将元组转换为ToBag的包(也在PiggyBank中)。
答案 1 :(得分:1)
我们实际上无法直接将元组转换为包(反之亦然)。我建议你这样做: