调试Hadoop映射中失败的混洗可减少

时间:2018-09-21 18:03:16

标签: hadoop mapreduce qubole

我看到随着输入文件大小的增加,失败的随机播放增加,并且作业完成时间呈非线性增加。

例如

75GB took 1h
86GB took 5h

我还看到平均洗牌时间增加了10倍

例如

75GB 4min
85GB 41min

有人可以指出我的调试方向吗?

1 个答案:

答案 0 :(得分:0)

只要您确定算法正确无误,就可能会在75Gb阈值之后的某个位置发生自动硬盘卷分区或碎片问题,因为您可能正在使用相同的文件系统来缓存结果。