SMB(排序合并存储桶)映射联接如何工作?

时间:2019-02-20 21:40:24

标签: apache-spark hive

您能举例说明这个复杂的概念吗?

从hive的Wiki中获取:

  

排序合并桶(SMB)联接可以转换为SMB映射联接,如下所示:   好。 SMB联接用于对表进行排序和存储的任何位置。   联接归结为仅合并已排序的表,   允许此操作比普通的map-join更快。   但是,如果表已分区,则可能会变慢,因为   每个映射器将需要获得一个很小的分区块,   只有一个键。

当它说“联接归结为仅合并已排序的表”时,我不理解它,这甚至意味着什么?我们为什么要合并它们?我以为我们应该服用他们的交叉产品。

任何人都可以提供此算法的示例吗?

0 个答案:

没有答案