应用错误收集

如果您的表很大（由“set hive.mapjoin.smalltable.filesize;”确定），则无法进行地图侧连接。除了你的表被分区和排序，并且你打开“set hive.optimize.bucketmapjoin.sortedmerge = true”，你仍然可以在大型表上进行地图侧连接。（当然，你还需要“set hive.optimize.bucketmapjoin = true”）

确保您的表格是真正的分块并在同一列上排序。犯错很容易。要获得一个分区和排序的表，您需要

set hive.enforce.bucketing = true;
set hive.enforce.sorting = true;
DDL脚本

CREATE table XXX ( id int, name string ) CLUSTERED BY (id) SORTED BY (id) INTO XXX BUCKETS ; INSERT OVERWRITE TABLE XXX select * from XXX CLUSTER BY member_id ;

使用describe formatted XXX并查找Num Buckets, Bucket Columns, Sort Columns以确保其设置正确。

存储桶连接的其他要求是两个表应该

数据在相同的列上分布，并在ON子句中使用。
一个表的桶数必须是另一个表的桶数的倍数。

如果满足所有要求，则将执行MAP连接。它会闪电般快速。

顺便说一下，Hive 1.X for ORC格式不支持SMB Map Join。你会得到一个null exception。该错误已在2.X中修复。

Hive Sort Merge Bucket加入

1 个答案: