在猪中连接多个记录

时间:2017-05-31 21:42:09

标签: hbase apache-pig user-defined-functions

我想使用Pig连接所有记录。 使用“pigStorage”和“-tagFile”标签加载数据后,我的数据如下:

md-select

我更喜欢的结果是:

(filename, aaaaaaaaaaa)
(filename, bbbbbbbbbbbbbb)

然后我可以将数据存储到HBase中,文件名为rowkey。

任何建议都将受到赞赏。

1 个答案:

答案 0 :(得分:0)

按文件名对数据进行分组,然后使用BagToString将所有行李CONCAT为单个字符串。

B = GROUP A BY filename;
C = FOREACH B GENERATE group,BagToString(A.$1,'');
DUMP C;