我有两个文件。我想按顺序合并它。我怎么能用Pig / PigLatin脚本呢?
f1.csv
1,aa
1,aa
1,ab
1,ac
2,bd
2,bd
2,bd
4,ab
4,bc
f2.csv
1,xxx
1,xxy
1,xyx
1,yxx
1,xyy
1,yyx
2,pqr
2,pq
2,pqrs
2,pqs
3,def
我需要的输出是
1,aa,1,xxy
1,aa,1,xyx
1,ab,1,yxx
1,ac,1,xyy
2,bd,2,pqr
2,bd,2,pq
2,bd,2,pqrs
任何人都可以帮助我应该使用哪种加入以及如何获得这种加入?
答案 0 :(得分:3)
1)加载每个文件。
2)然后将他们联合起来
http://pig.apache.org/docs/r0.7.0/piglatin_ref2.html#UNION
3)存储新的联合别名。
P.S。你可以设置DEFAULT_PARALLEL 1;确保只输出一个文件。