mappers执行时间之间的巨大差异

时间:2018-05-02 13:39:29

标签: hadoop mapreduce yarn sqoop

我尝试使用sqoop导入表格;我使用4个映射器。 问题是映射器之间的执行时间之间存在巨大差异。 一些不到10分钟,其他一个超过一个小时。 你能解释一下原因吗?以及如何优化我的导入? enter image description here

2 个答案:

答案 0 :(得分:0)

看起来,映射器之间数据的不均匀分布可能是造成这种差异的原因。

我认为您可以检查表的主键是什么,以及范围的最小值和最大值是什么。因为基于范围,数据将在映射器中分发。并检查最后两个映射器是否导入了更多数据。

答案 1 :(得分:0)

尝试使用--split-limit参数来优化导入。如果创建的拆分大小大于此参数中指定的大小,则将调整拆分大小以适应此限制,并且拆分数将根据该大小更改。这会影响映射器的实际数量并导致更均衡的映射器。