如果有两个以上的表,则存储对存储有何帮助(如果有的话)。(Hive排序合并存储桶联接)

时间:2019-06-17 08:28:58

标签: join hive partitioning apache-tez

我们知道映射联接和SMBM联接如何工作,从而减少了执行时间(消除了减少阶段,即消除了混洗)。

Ex:用于两个表之间的联接 从中选择a.col1,b.col2 a.col1 = b.col1上的连接b (两个表都在col1上存储到相同的存储桶中)

但是在连接3个或更多表时,

例如: 选择一个。 col1,b.col3,c.col2,d。起始日期 a.id = b.id上的连接b在a.state = b.state上的连接c在c.date = d.date上的连接d

这样的场景,如果我们不想将查询分成多个较小的查询,则存储对桶的帮助。

0 个答案:

没有答案