我想过滤包含内部的所有字符串,但不会过滤数据。在我的猪脚本中,我有:
preload = load '$INPUT' as (textline:chararray);
filterdata = FILTER preload BY SIZE(textline) > 100;
filterInternal = FILTER filterdata by NOT(textline MATCHES '.*internal.*');
在AWS上使用Pig 0.12.0
答案 0 :(得分:0)
使用文本加载器加载,因为输入数据集不是制表符分隔的。
我尝试了下面的例子,但它有效
a = load'匹配'使用TextLoader AS(行:chararray);
b =通过not过滤a(行匹配'。 imran。');
转储b;