标签: hadoop hive hiveql
我正在hive中的某些维度上创建聚合。我面临的问题是聚合查询花费了近5个小时来聚合大约40G的数据,并且日志显示数据存在巨大的偏差。
我可以找一些如何在连接中找到偏斜的替代方法,但不确定在计算聚合时是否可以避免相同。
即使是分组也只能为小组创造存储桶,情况仍然存在。有没有更好的机制来处理这些情况。