标签: hadoop hive mapreduce
假设我有4-5个ALL BIG表(TB中的数据),我想将它们加入蜂巢中。 Hive在内部(在MapReduce中)如何最佳地执行联接。
答案 0 :(得分:1)
可以使用Bucketized-Join或Sort-Merge-Join最佳地联接许多大表,请参见HIVE Join strategies。所有表都需要相应地进行结构化(相同的存储桶,或相同的排序和存储桶)。 如果您的表的组织方式不同(存储方式相同),那么剩下的唯一选择就是进行随机组合,它将复制整个表(慢速)。