Hive-Hive如何在内部执行多个BIG表联接查询(在MapReduce中)以及如何对其进行优化?

时间:2018-06-27 05:12:23

标签: hadoop hive mapreduce

假设我有4-5个ALL BIG表(TB中的数据),我想将它们加入蜂巢中。 Hive在内部(在MapReduce中)如何最佳地执行联接。

1 个答案:

答案 0 :(得分:1)

可以使用Bucketized-Join或Sort-Merge-Join最佳地联接许多大表,请参见HIVE Join strategies。所有表都需要相应地进行结构化(相同的存储桶,或相同的排序和存储桶)。 如果您的表的组织方式不同(存储方式相同),那么剩下的唯一选择就是进行随机组合,它将复制整个表(慢速)。