我有一个巨大的文件,每行有两列用标签分隔。
我有另一个文件,其中包含一个值列表,每行一个。
现在我想过滤第一个文件,这样我就可以获得第一个文件存在于第二个文件中的所有行。
如何在猪身上做到这一点?
答案 0 :(得分:2)
您可以使用内部联接:
A = LOAD 'file1' USING PigStorage('\t') AS (f1:int, f2:int);
B = LOAD 'file2' USING PigStorage(',') AS (f3:int);
C = JOIN A BY f1, B BY f3;
DUMP C;