按Pig中的数组长度过滤

时间:2016-08-11 19:12:40

标签: apache-pig

我的数据以avro格式存储。每个记录的一个字段(例如array_field)是一个数组。使用Pig如何仅获取具有数组的记录,例如length(array_field) >= 2,然后使用与原始输入相同的模式将结果存储在avro文件中?

1 个答案:

答案 0 :(得分:1)

这应该适用于以下代码:

A = LOAD '$INPUT' USING AvroStorage();
B = FILTER A BY SIZE(array_field) >= 2;
STORE B INTO '$OUTPUT' USING AvroStorage('schema', '<schema_here>');