我根据以下某些标准过滤了猪数据集:
A = LOAD 'data' USING PigStorage() as (f1:int,f2:int,f3:int,...);
G1 = FILTER A BY f1<0;
G2 = FILTER A BY (f1+f2)>0;
现在,处理上述两个过滤数据集,并使用STORE语句存储输出。
B = FOREACH G1 GENERATE ...
STORE B INTO 'location1'
C = FOREACH G2 GENERATE ...
STORE C INTO 'location2'
由于B和C完全独立,并且是通过处理完全独立的数据集G1和G2生成的,为什么这两个操作不能并行运行?
它们在每个STORE语句中以顺序方式触发。根据我的理解,启用多查询执行后,这两个代码块不应该并行运行吗?如果这是不可能的,有没有办法让这些操作并行运行,因为这需要花费很多时间。