学习像PIG Latin中的正则表达式一样使用perl。

时间:2014-05-23 04:35:56

标签: hadoop apache-pig latin

有没有办法从Pig Latin中的文件中提取某些单词,例如:我希望所有单词都在一个带有推文的大文件中,在开头有一个#。

Input :  What a lovely day! #Sunshine
Output : Sunshine

2 个答案:

答案 0 :(得分:0)

好的,使用FILTER为我工作:startswithHash = filter<>通过<>匹配'#。*' ;

答案 1 :(得分:0)

看看REGEX_EXTRACT:http://pig.apache.org/docs/r0.12.1/func.html#regex-extract

这应该有效(从your_field中提取前面带#的最后一个单词):

REGEX_EXTRACT(your_field, '.*#(\\w+)($|\\s.*)', 1)