我是Pig的新手,我正在尝试理解基本命令。我有一个数据集A,我内部加入到数据集B. 我想在结果数据集中只保留一些变量。我怎么做?这就是我到目前为止所拥有的
A = LOAD 'science_scores';
B = LOAD 'math_scores';
AB = JOIN A BY Name, B BY Student_Name;
现在A和B都有很多其他我不需要的列。在SQL中我会做这样的事情:
SELECT A.science_score, B.math_score
FROM A
INNER JOIN B
ON A.Name = B.Student_Name
有人可以帮我解释一下如何做到这一点吗?
谢谢!
答案 0 :(得分:2)
您正在寻找FOREACH
和GENERATE
个关键字。
selected = FOREACH AB GENERATE science_score, math_score;
答案 1 :(得分:0)
A = LOAD 'science_scores';
B = LOAD 'math_scores';
AB = JOIN A BY Name, B BY Student_Name;
dump AB;
请参阅以下链接。