我如何制作一个只返回带有一定长度条目的字段的猪脚本?

时间:2013-07-29 16:15:59

标签: hadoop apache-pig

我已经使用了数据,我只想要一个包含两个字段的文档,即使这样,如果标题字段超过一定长度,它也只包含一个条目。这是我到目前为止所做的。

records = LOAD '$INPUT' USING PigStorage('\t') AS (url:chararray, title:chararray, meta:chararray, copyright:chararray, aboutUSLink:chararray, aboutTitle:chararray, aboutMeta:chararray, contactUSLink:chararray, contactTitle:chararray, contactMeta:chararray, phones:chararray);
E = FOREACH records IF SIZE(title)>10 GENERATE url,title;
STORE E INTO '$OUTPUT/phoneNumbersAndTitles';

为什么代码退出IF?

1 个答案:

答案 0 :(得分:3)

您应该使用FILTER,它根据某些条件从关系中选择元组:

filtered = FILTER records BY SIZE(title) > 10;
E = FOREACH filtered GENERATE url,title;