您能举例说明这个复杂的概念吗?
从hive的Wiki中获取:
排序合并桶(SMB)联接可以转换为SMB映射联接,如下所示: 好。 SMB联接用于对表进行排序和存储的任何位置。 联接归结为仅合并已排序的表, 允许此操作比普通的map-join更快。 但是,如果表已分区,则可能会变慢,因为 每个映射器将需要获得一个很小的分区块, 只有一个键。
当它说“联接归结为仅合并已排序的表”时,我不理解它,这甚至意味着什么?我们为什么要合并它们?我以为我们应该服用他们的交叉产品。
任何人都可以提供此算法的示例吗?