应用错误收集

如何优化猪的大表读和外连接

时间：2012-09-12 12:58:54

标签： hadoop apache-pig outer-join

我正在加入一张包含3张其他桌子的大桌子，

A =连接小表（f1，f2）RIGHT OUTER，hugeTable by（f1，f2）;

B =加入AnotherSmall by（f3）RIGHT OUTER，A by（f3）;

C =通过（f4）加入AnotherSmall，通过（f4）加入B;

小表可能不适合内存，但这会导致十亿个对象读取三次且耗时，我想知道是否有任何方法可以避免重读并且可以提高处理效率？

提前致谢。

1 个答案:

答案 0 :(得分：0)

如果你设计HBase中的大表有三个列族，即从f1和f2分割f3和f4，你应该能够避免不必要的阅读。

另外，如果你考虑一下，你不会重读，而是阅读记录的不同部分：首先是f1和f2，然后是f3，最后是{{ 1}}。