Pig中的嵌套分组

时间:2012-08-08 12:56:11

标签: apache-pig

我有这个数据结构

data: {mid: bytearray,country_code: bytearray,cnt: long}

4679201,RUS,1
4679201,GB,1
4679201,US,1
4681046,GB,2
4681046,TR,1
4681046,FR,1

我需要遍历每个'mid'值并将其相应的数据存储在'csv'文件中。

STORE mid_data INTO '/mypath/4681046';

输出文件如下所示:

GB,2
TR,1
FR,1

看起来已经有了一个函数(org.apache.pig.piggybank.storage.MultiStorage )这样做,除了我不希望我的键(mid)成为输出的一部分。

由于

萨德克

1 个答案:

答案 0 :(得分:0)

要在输出文件中存储最后2列,请使用FOREACH。

例如:

view = FOREACH mid_data GENERATE country_code, cnt;
STORE view INTO '/yourpath/3452345';