我想使用Pig比较来自两个不同文件的元组。如果元组是彼此的镜像,我想将该元组放入file-f3。
如果f1具有以下元组
(1 2)
(3 4)
和f2有以下元组
(5 6)
(4 3)
由于(3 4)是(4 3)的镜像,我们需要将该值存储在f3中。因此,f3将是
(3 4)
答案 0 :(得分:0)
您可以简单地内连接2个数据集,如下所示:
data1 = LOAD '$data1' USING AvroStorage();
data2 = LOAD '$data2' USING AvroStorage();
output = JOIN data1 BY ($0, $1), data2 BY ($1, $0);
output2 = FOREACH output GENERATE data1.$0, data1.$1;