如何比较Pig Script中的2个元组(文件)

时间:2015-03-27 09:16:00

标签: compare tuples apache-pig bigdata

我是Pig脚本的新手,在比较两个元组时遇到了问题。

有两个文件:

  • random =具有6个数字的序列

  • allposs =具有5个数字的序列

我想计算allposs中所有行,即文件random中的序列。

可以有两种可能性:

  1. 序列出现在random
  2. 的前5个数字中
  3. 序列出现在random

    的最后5个数字中
    A = load 'random' using PigStorage(':') as (bsid1:int, bsid2:int, bsid3:int, bsid4:int, bsid5:int, bsid6:int);
    B = load 'Allposs' using PigStorage(':') as (bsid1:int, bsid2:int, bsid3:int, bsid4:int, bsid5:int);
    C = FILTER A BY (A.bsid1==B.bsid1 AND A.bsid2==B.bsid2 AND 
        A.bsid3==B.bsid3 AND A.bsid4==B.bsid4 AND A.bsid5==B.bsid5) OR 
        (A.bsid2==B.bsid1 AND A.bsid3==B.bsid2 AND A.bsid4==B.bsid3 AND 
        A.bsid5==B.bsid4 AND A.bsid6==B.bsid5);
    
    C = GROUP B ALL;
    
    D = FOREACH C GENERATE COUNT(B);<br/>
    
    DUMP D;
    
  4. 请帮我纠正这个Pig脚本。

0 个答案:

没有答案