PIG:如何为PARALLEL条款选择好的价值?

时间:2016-05-19 10:13:53

标签: hadoop mapreduce apache-pig workflow cloudera

我试图最小化给定群集(512GB RAM,100个vCores)工作流的执行时间与倍数"实例"相同的PIG脚本。

为COGROUP操作增加PARALLEL子句值可以获得更好的结果。但是,是否有一个公式可以为这样的条款获得良好的价值? PIG文档对此非常回避!

1 个答案:

答案 0 :(得分:0)

不幸的是,定义减速器的数量并不是一个明确的规则,而且可以通过经验调查COGROUP执行时间阶段并为PARALELL玩不同的值(建议从我的经验开始为100)。

然而,上限通常定义为numReduces<< HEAPSIZE /(2 * io.buffer.size)。您可以找到更多here