Pig SUM一列,直到达到某个值并返回行

时间:2015-04-27 21:24:27

标签: hadoop apache-pig bigdata hadoop-plugins udf

有人可以帮助我如何计算coloumn的总和,直到达到一定值。用例:产生50%收入的顶级产品。

有没有像皮球这样的图书馆来完成它,我无法在皮卡中找到它。

我正在尝试实现UDF,但我担心的是唯一的方法:(。

这是数据结构 -

productId,totalProfitByProduct,totalProfitByCompany,totalRevenueOfCompany。

数据按totalProfitByProduct降序排列。 totalProfitByCompany,totalRevenueOfCompany对于每一行保持相同。

现在我想从顶部为上面的每个产品应用totalProfitByProduct的总和,并获得产生超过totalProfitByCompany或totalRevenueOfCompany的50%的顶级产品

1 个答案:

答案 0 :(得分:0)

piggybank有百分位UDf,可以用于您的要求。

Pig Script和udf可以帮助您实现它。