我试图最小化给定群集(512GB RAM,100个vCores)工作流的执行时间与倍数"实例"相同的PIG脚本。
为COGROUP操作增加PARALLEL子句值可以获得更好的结果。但是,是否有一个公式可以为这样的条款获得良好的价值? PIG文档对此非常回避!
答案 0 :(得分:0)
不幸的是,定义减速器的数量并不是一个明确的规则,而且可以通过经验调查COGROUP执行时间阶段并为PARALELL玩不同的值(建议从我的经验开始为100)。
然而,上限通常定义为numReduces<< HEAPSIZE /(2 * io.buffer.size)。您可以找到更多here