并行执行独立的Pig代码块

时间:2016-03-28 07:42:49

标签: hadoop apache-pig

我根据以下某些标准过滤了猪数据集:

A = LOAD 'data' USING PigStorage() as (f1:int,f2:int,f3:int,...);
G1 = FILTER A BY f1<0;
G2 = FILTER A BY (f1+f2)>0; 

现在,处理上述两个过滤数据集,并使用STORE语句存储输出。

B = FOREACH G1 GENERATE ...
STORE B INTO 'location1'
C = FOREACH G2 GENERATE ...
STORE C INTO 'location2'

由于B和C完全独立,并且是通过处理完全独立的数据集G1和G2生成的,为什么这两个操作不能并行运行?

它们在每个STORE语句中以顺序方式触发。根据我的理解,启用多查询执行后,这两个代码块不应该并行运行吗?如果这是不可能的,有没有办法让这些操作并行运行,因为这需要花费很多时间。

0 个答案:

没有答案