如何根据给定的格式组合猪的两条线?

时间:2016-07-06 20:58:59

标签: hadoop mapreduce hive apache-pig pig-udf

我正在尝试处理文件。截至目前我正在获得如下所示的输出。

input file:-
c=1,2,3
a,b,c,d,a
d,e,f
g,h,i,i
c=2,3,4
j,k,l
m,n,a,h
c=3,2,5
d,g,a
s,fs,a


    expecting an output like:-
    c=1,2,3,a,b,c,d,a
    c=1,2,3,d,e,f
    c=1,2,3,g,h,i,i
    c=2,3,4,j,k,l
    c=2,3,4,m,n,a,h
    c=3,2,5,d,g,a
    c=3,2,5,s,fs,a

有没有其他方法可以让输出像。

    Another output format:-
    c=1,2,3,{(a,b,c,d,a),(d,e,f),(g,h,i,i)}
    c=2,3,4,{(j,k,l),(m,n,a,h)}
    c=3,2,5,{(d,g,a),(s,fs,a)}

有人可以帮助我。我正在尝试与猪接触,但我没有接近这个,我试图用猪来解决这个问题,以便进行一些练习。

谢谢&问候, Ankush Reddy

1 个答案:

答案 0 :(得分:0)

我认为猪不可能。 Pig是并行处理,然后它无法知道文件中的记录顺序。因此,我建议您在使用猪进行处理前使用bash脚本或其他工具对其进行预处理。