我是猪和hadoop的新手。我需要从公共列上的多个表中选择和分组行(但它不是连接)。
例如,如果表1是:
adv1,app1,adg1,camp1
adv2,app3,adg2,camp2
和表2是:
adv1,app2,adg2,camp1
adv3,app1,adg3,camp3
adv1,app1,adg4,camp2
然后我想要这样的事情:
adv1,app1,adg1,camp1
adv1,app2,adg2,camp1
adv1,app1,adg4,camp2
答案 0 :(得分:1)
我认为您要做的是加载两个表,然后执行filter操作。
如果您有一个名为table1
的文件,其中包含内容
adv1,app1,adg1,camp1
adv2,app3,adg2,camp2
和包含内容的文件table2
adv1,app2,adg2,camp1
adv3,app1,adg3,camp3
adv1,app1,adg4,camp2
然后您可以执行以下操作:
T = load '{/path/to/table1,/path/to/table2}' using PigStorage(',')
as (adv:chararray, app:chararray, adg:chararray, camp:chararray);
result = filter T by adv == 'adv1';
> dump result
(adv1,app2,adg2,camp1)
(adv1,app1,adg4,camp2)
(adv1,app1,adg1,camp1)
或者,如果您有两个未从文件加载的关系,则可以使用union将它们组合,然后进行过滤。
> dump T1
(adv1,app1,adg1,camp1)
(adv2,app3,adg2,camp2)
> dump T2
(adv1,app2,adg2,camp1)
(adv3,app1,adg3,camp3)
(adv1,app1,adg4,camp2)
T = union T1, T2;
result = filter T by adv == 'adv1';
此外,如果您尝试根据所有可能的键而不仅仅是adv1进行分组,那么您可以为最后一行执行group而不是过滤器。
result = group T by adv;
> dump result
(adv1,{(adv1,app1,adg1,camp1),(adv1,app2,adg2,camp1),(adv1,app1,adg4,camp2)})
(adv2,{(adv2,app3,adg2,camp2)})
(adv3,{(adv3,app1,adg3,camp3)})