是否可以指定pig输出10 r文件,MR使用10个reducer时的方式?我的猪脚本只输出一个r文件,我想这意味着它只使用一个reducer。我已经把
了SET default_parallel 10;
在我的脚本和stderr中,我可以在开始时看到
[主要] INFO org.apache.pig.backend.hadoop.executionengine.mapReduceLayer.JobControlCompiler - 将并行度设置为10
但是在MapReduceLauncher的中间它会回到
[主要] INFO org.apache.pig.backend.hadoop.executionengine.mapReduceLayer.JobControlCompiler - 将并行度设置为1
我做一个连接,总结两列,然后计算一列的平均值,我怀疑它是因为avg或group all而发生的。这是对的吗?
答案 0 :(得分:1)
是。引自http://chimera.labs.oreilly.com/books/1234000001811/ch05.html#group_by
[...] keep in mind that when using group all, you are necessarily serializing your pipeline. That is, this step and any step after it until you split out the single bag now containing all of your records will not be done in parallel.