如何优化猪的大表读和外连接

时间:2012-09-12 12:58:54

标签: hadoop apache-pig outer-join

我正在加入一张包含3张其他桌子的大桌子,

A =连接小表(f1,f2)RIGHT OUTER,hugeTable by(f1,f2);

B =加入AnotherSmall by(f3)RIGHT OUTER,A by(f3);

C =通过(f4)加入AnotherSmall,通过(f4)加入B;

小表可能不适合内存,但这会导致十亿个对象读取三次且耗时,我想知道是否有任何方法可以避免重读并且可以提高处理效率?

提前致谢。

1 个答案:

答案 0 :(得分:0)

如果你设计HBase中的大表有三个列族,即从f1f2分割f3f4,你应该能够避免不必要的阅读。

另外,如果你考虑一下,你不会重读,而是阅读记录的不同部分:首先是f1f2,然后是f3,最后是{{ 1}}。