我的数据以avro格式存储。每个记录的一个字段(例如array_field
)是一个数组。使用Pig如何仅获取具有数组的记录,例如length(array_field) >= 2
,然后使用与原始输入相同的模式将结果存储在avro文件中?
答案 0 :(得分:1)
这应该适用于以下代码:
A = LOAD '$INPUT' USING AvroStorage();
B = FILTER A BY SIZE(array_field) >= 2;
STORE B INTO '$OUTPUT' USING AvroStorage('schema', '<schema_here>');