通过与其他文件比较过滤猪中的tsv文件

时间:2012-11-15 08:10:30

标签: apache-pig

我有一个巨大的文件,每行有两列用标签分隔。

我有另一个文件,其中包含一个值列表,每行一个。

现在我想过滤第一个文件,这样我就可以获得第一个文件存在于第二个文件中的所有行。

如何在猪身上做到这一点?

1 个答案:

答案 0 :(得分:2)

您可以使用内部联接:

A = LOAD 'file1' USING PigStorage('\t') AS (f1:int, f2:int);
B = LOAD 'file2' USING PigStorage(',') AS (f3:int);

C = JOIN A BY f1, B BY f3;
DUMP C;