基于分组的猪脚本

时间:2016-05-31 08:10:17

标签: hadoop mapreduce apache-pig

我有这样的数据集。

cus_ID  BRAND AMOUNT
1       5       10
2       4       20
3       5       15
1       5       20
1       4       30
2       3       15

我希望找到使用PIG的前五大品牌中的前五大品牌和十大客户ID。

1 个答案:

答案 0 :(得分:0)

为了您的第一个目标(找到前5个品牌),请到这里(代码未经过测试):

mydata = LOAD ... <load your data from your file or other source>
grouped = GROUP mydata BY brand;
flattened = FOREACH grouped GENERATE
    FLATTEN(group) AS brand,
    SUM(mydata.amount) AS amount_per_brand;
topfivebrand = LIMIT (ORDER flattened by amount_per_brand DESC) 5;
dump topfivebrand;

那应该让你开始吧! :)