apache pig rank操作员不使用多个reducer

时间:2014-06-24 13:50:35

标签: hadoop hive apache-pig

我正在尝试使用pig的rank运算符为给定的字符串分配整数。虽然它在我将parallel子句设置为1时有效,但它没有更高的值(如200)。我需要使用多个减速器来加速处理,因为默认情况下,猪只使用一个减速器,这需要很长时间。

我的查询如下:

rank = rank tupl1 by col1 ASC parallel 200;

1 个答案:

答案 0 :(得分:2)

实际上根据猪文档(https://pig.apache.org/docs/r0.11.1/perf.html#parallel):

  

您可以在任何启动运算符的运算符中包含PARALLEL子句   减少阶段:COGROUP,CROSS,DISTINCT,GROUP,JOIN(内部),JOIN   (外部)和ORDER BY。

这就是我认为你有错误的原因,不可能为排名设置PARALLEL参数。