标签: hadoop mapreduce qubole
我看到随着输入文件大小的增加,失败的随机播放增加,并且作业完成时间呈非线性增加。
例如
75GB took 1h 86GB took 5h
我还看到平均洗牌时间增加了10倍
75GB 4min 85GB 41min
有人可以指出我的调试方向吗?
答案 0 :(得分:0)
只要您确定算法正确无误,就可能会在75Gb阈值之后的某个位置发生自动硬盘卷分区或碎片问题,因为您可能正在使用相同的文件系统来缓存结果。