我发现一个分组集只能启动一个mapreduce作业,除非我使用两个分组集的并集。 例如:
select count(1)
from
table
group by a,b
grouping sets ( (a),(b),(a,b) )
这将启动一个mapreduce作业;
select count(1)
from
table
group by a,b
grouping sets ( (a),(b) )
union all
select count(1)
from
table
group by a,b
grouping sets ( (a,b) )
这可以启动两个mapreduce作业。 因此,我还有其他方法可以用于并行分组集。