标签: join hive partitioning mapjoin
当前,配置单元不支持非等分联接。 但是,随着交叉乘积变得非常巨大,我想知道有什么选择来解决较大的事实(2570亿行,37 TB)和相对较小(8.7 GB)的维表联接。
如果是等联接,我可以通过在联接列/列上进行适当的存储来使其轻松工作。 (使用相同数量的SMBM桶实际上转换为地图联接)。但是,如果我们认为这在非等额联接时没有任何优势,因为这些值将存在于其他存储桶中,实际上会触发洗牌,即减少阶段。
如果有人有任何克服的想法,请提出建议。..
答案 0 :(得分:-1)
如果维度表适合内存,则可以按照here的说明创建自定义用户定义函数(UDF),并在内存中执行inequi-join。