猪过滤器匹配不适用于猪和EMR

时间:2014-12-29 14:53:37

标签: amazon-web-services apache-pig emr

我想过滤包含内部的所有字符串,但不会过滤数据。在我的猪脚本中,我有:

preload = load '$INPUT' as (textline:chararray);
filterdata = FILTER preload BY SIZE(textline) > 100;
filterInternal = FILTER filterdata by NOT(textline MATCHES '.*internal.*');

在AWS上使用Pig 0.12.0

1 个答案:

答案 0 :(得分:0)

使用文本加载器加载,因为输入数据集不是制表符分隔的。

我尝试了下面的例子,但它有效

a = load'匹配'使用TextLoader AS(行:chararray);

b =通过not过滤a(行匹配'。 imran。');

转储b;