应用错误收集

hive.groupby.skewindata是否依赖于hive.optimize.skewjoin？

时间：2018-02-12 07:09:45

标签： hadoop hive bigdata hiveql

根据hive模板：

hive.optimize.skewjoin：是否启用倾斜连接优化。算法如下：在运行时，检测具有大偏斜的键。而不是处理这些密钥，将它们临时存储在HDFS目录中。在后续map-reduce作业中，处理那些倾斜的键。所有表都不需要相同的键，因此，后续map-reduce作业（对于倾斜的键）会更快，因为它将是一个map-join。

hive.groupby.skewindata：数据是否存在偏差，以便按查询优化分组

但我不明白是否 hive.groupby.skewindata是否依赖于hive.optimize.skewjoin？

1 个答案:

答案 0 :(得分：1)

这两个属性处理两种不同的情况。当group by子句引起歪斜时，可以使用hive.groupby.skewindata。当数据倾斜由连接子句引起时，可以使用hive.optimize.skewjoin。根本原因是相同的。 Hive将具有相同密钥的数据放入相同的reducer。