如何使用PIG脚本合并两个文件?

时间:2012-12-21 05:22:42

标签: hadoop apache-pig

我有两个文件。我想按顺序合并它。我怎么能用Pig / PigLatin脚本呢?

f1.csv
1,aa
1,aa
1,ab
1,ac
2,bd
2,bd
2,bd
4,ab
4,bc

f2.csv
1,xxx
1,xxy
1,xyx
1,yxx
1,xyy
1,yyx
2,pqr
2,pq
2,pqrs
2,pqs
3,def

我需要的输出是

1,aa,1,xxy
1,aa,1,xyx
1,ab,1,yxx
1,ac,1,xyy
2,bd,2,pqr
2,bd,2,pq
2,bd,2,pqrs

任何人都可以帮助我应该使用哪种加入以及如何获得这种加入?

1 个答案:

答案 0 :(得分:3)

1)加载每个文件。

2)然后将他们联合起来

http://pig.apache.org/docs/r0.7.0/piglatin_ref2.html#UNION

3)存储新的联合别名。

P.S。你可以设置DEFAULT_PARALLEL 1;确保只输出一个文件。