蜂巢中的非均等联接

时间:2019-06-18 06:27:48

标签: join hive partitioning mapjoin

当前,配置单元不支持非等分联接。 但是,随着交叉乘积变得非常巨大,我想知道有什么选择来解决较大的事实(2570亿行,37 TB)和相对较小(8.7 GB)的维表联接。

如果是等联接,我可以通过在联接列/列上进行适当的存储来使其轻松工作。 (使用相同数量的SMBM桶实际上转换为地图联接)。但是,如果我们认为这在非​​等额联接时没有任何优势,因为这些值将存在于其他存储桶中,实际上会触发洗牌,即减少阶段。

如果有人有任何克服的想法,请提出建议。..

1 个答案:

答案 0 :(得分:-1)

如果维度表适合内存,则可以按照here的说明创建自定义用户定义函数(UDF),并在内存中执行inequi-join。