应用错误收集

mappers执行时间之间的巨大差异

时间：2018-05-02 13:39:29

标签： hadoop mapreduce yarn sqoop

我尝试使用sqoop导入表格;我使用4个映射器。问题是映射器之间的执行时间之间存在巨大差异。一些不到10分钟，其他一个超过一个小时。你能解释一下原因吗？以及如何优化我的导入？

2 个答案:

答案 0 :(得分：0)

看起来，映射器之间数据的不均匀分布可能是造成这种差异的原因。

我认为您可以检查表的主键是什么，以及范围的最小值和最大值是什么。因为基于范围，数据将在映射器中分发。并检查最后两个映射器是否导入了更多数据。

答案 1 :(得分：0)

尝试使用--split-limit参数来优化导入。如果创建的拆分大小大于此参数中指定的大小，则将调整拆分大小以适应此限制，并且拆分数将根据该大小更改。这会影响映射器的实际数量并导致更均衡的映射器。