Hive Group by Optimization

时间:2017-10-20 05:35:41

标签: hadoop hive hiveql

我正在hive中的某些维度上创建聚合。我面临的问题是聚合查询花费了近5个小时来聚合大约40G的数据,并且日志显示数据存在巨大的偏差。

我可以找一些如何在连接中找到偏斜的替代方法,但不确定在计算聚合时是否可以避免相同。

即使是分组也只能为小组创造存储桶,情况仍然存在。有没有更好的机制来处理这些情况。

0 个答案:

没有答案