在运行HIVE Join查询时,Reducers停止了66.68%的工作

时间:2013-01-05 12:30:10

标签: join hadoop mapreduce hive

尝试连接6个表,每个表大约有500万行。尝试加入帐户号码,该帐号在所有表格中按升序排序。地图任务成功完成,减速机停止工作在66.68%。尝试增加减少数量的选项,并尝试其他选项设置hive.auto.convert.join = true;并设置hive.hashtable.max.memory.usage = 0.9;并设置hive.smalltable.filesize = 25000000L;但结果是一样的。尝试少量记录(如5000行),查询工作得很好。

请建议可以在此处完成的工作。

2 个答案:

答案 0 :(得分:11)

66%的减速器开始实际减少(0-33%是洗牌,33-66%是排序)。在与hive的连接中,reducer在两个数据集之间执行笛卡尔积。

我猜测在所有数据集中至少有一个外键频繁出现。注意NULL和默认值。

例如,在连接中,假设键“abc”在六个表(10 ^ 6)的每一个中出现十次。这是一个密钥的百万输出记录。如果“abc”在一个表中出现1000次,在另一个表中出现1000次,在另一个表中出现1000次,那么在其他三个表中出现两次,则得到80亿条记录(1000 ^ 3 * 2 ^ 3)。你可以看到这是如何失控的。我猜测至少有一个密钥会产生大量的输出记录。

这也是在Hive之外的RDBMS中避免的一般良好做法。在多对多关系之间进行多次内部联接可能会给您带来很多麻烦。

答案 1 :(得分:0)

现在进行调试,将来可以使用JobTracker查找和检查有问题的Reducer的日志。然后,您可以检测reduce操作,以便更好地处理正在发生的事情。小心你当然不要用日志记录它! 例如,尝试查看输入到reduce操作的记录数。