SET default_parallel 1;声明不适用于猪

时间:2015-11-02 07:08:59

标签: hadoop apache-pig

我是猪的新手,根据我的理解SET default_parallel 1语句应生成一个输出文件,因为它将使用一个reducer。但是当我在下面的脚本上使用这个命令时,它会给我2个o / p文件。

SET default_parallel 1;
A = LOAD 'hdfs:/pigfldr/union1' using PigStorage(' ') AS (sln:int);
B = LOAD 'hdfs:/pigfldr/union2' using PigStorage(' ') AS (sln:int);
C = UNION A, B;

STORE C INTO 'hdfs:/pigfldr/unionfres';

1 个答案:

答案 0 :(得分:4)

即使我是猪的新人。但据我所知" SET default_parallel 1;"(并行功能)仅适用于reducer,不适用于mapper。 所以只有你得到两个文件。 因为Union函数在你的情况下只使用mapper而不是reducer。 您可以看到名为part-m-00000和part-m-00001的输出文件,m表示映射器输出文件。它不是reducer输出文件,如果它是re​​ducer输出文件意味着它将像part-r-0000 *