有没有办法从Pig Latin中的文件中提取某些单词,例如:我希望所有单词都在一个带有推文的大文件中,在开头有一个#。
Input : What a lovely day! #Sunshine
Output : Sunshine
答案 0 :(得分:0)
好的,使用FILTER为我工作:startswithHash = filter<>通过<>匹配'#。*' ;
答案 1 :(得分:0)
看看REGEX_EXTRACT:http://pig.apache.org/docs/r0.12.1/func.html#regex-extract
这应该有效(从your_field中提取前面带#的最后一个单词):
REGEX_EXTRACT(your_field, '.*#(\\w+)($|\\s.*)', 1)