我有两个表 - 表A(Person_Name,Person_Salary),表B(Person_Name,Store_shop),公共列名为Person_Name。我想在该公共列上加入这两个表,但只接受那些工资> 1000的行。我想输出工资大于1000的每个人的商店列表。表B列出了商店的列表,其中一个商店意味着它为同一个人拥有多行,每次都有不同或重复的商店名称。 我想知道如何在加入表格时实施薪水条件
答案 0 :(得分:0)
加载两个数据集。基于工资的第一个数据集> 1000.加入person_name上的两个数据集以获取输出
A = LOAD 'dataA.txt' USING PigStorage(',') AS (name:chararray,salary:int);
B = LOAD 'dataB.txt' USING PigStorage(',') AS (name:chararray,store:int);
C = FILTER A BY (salary > 1000);
D = JOIN C BY name,B BY name;
E = FOREACH D GENERATE C.name,B.store;
DUMP E;