标签: hadoop mapreduce yarn sqoop
我尝试使用sqoop导入表格;我使用4个映射器。 问题是映射器之间的执行时间之间存在巨大差异。 一些不到10分钟,其他一个超过一个小时。 你能解释一下原因吗?以及如何优化我的导入?
答案 0 :(得分:0)
看起来,映射器之间数据的不均匀分布可能是造成这种差异的原因。
我认为您可以检查表的主键是什么,以及范围的最小值和最大值是什么。因为基于范围,数据将在映射器中分发。并检查最后两个映射器是否导入了更多数据。
答案 1 :(得分:0)
尝试使用--split-limit参数来优化导入。如果创建的拆分大小大于此参数中指定的大小,则将调整拆分大小以适应此限制,并且拆分数将根据该大小更改。这会影响映射器的实际数量并导致更均衡的映射器。
--split-limit