hive.groupby.skewindata是否依赖于hive.optimize.skewjoin?

时间:2018-02-12 07:09:45

标签: hadoop hive bigdata hiveql

根据hive模板:

hive.optimize.skewjoin:是否启用倾斜连接优化。算法如下:在运行时,检测具有大偏斜的键。而不是处理这些密钥,将它们临时存储在HDFS目录中。在后续map-reduce作业中,处理那些倾斜的键。所有表都不需要相同的键,因此,后续map-reduce作业(对于倾斜的键)会更快,因为它将是一个map-join。

hive.groupby.skewindata:数据是否存在偏差,以便按查询优化分组

但我不明白是否 hive.groupby.skewindata是否依赖于hive.optimize.skewjoin

1 个答案:

答案 0 :(得分:1)

这两个属性处理两种不同的情况。当group by子句引起歪斜时,可以使用hive.groupby.skewindata。当数据倾斜由连接子句引起时,可以使用hive.optimize.skewjoin。根本原因是相同的。 Hive将具有相同密钥的数据放入相同的reducer。