比较Pig中两个文件的元组

时间:2014-10-21 01:57:54

标签: tuples apache-pig

我想使用Pig比较来自两个不同文件的元组。如果元组是彼此的镜像,我想将该元组放入file-f3。

如果f1具有以下元组

(1 2)
(3 4)

和f2有以下元组

(5 6)
(4 3)

由于(3 4)是(4 3)的镜像,我们需要将该值存储在f3中。因此,f3将是

(3 4)

1 个答案:

答案 0 :(得分:0)

您可以简单地内连接2个数据集,如下所示:

data1 = LOAD '$data1' USING AvroStorage();
data2 = LOAD '$data2' USING AvroStorage();

output = JOIN data1 BY ($0, $1), data2 BY ($1, $0);
output2 = FOREACH output GENERATE data1.$0, data1.$1;