如何优化Mapreduce作业

时间:2017-08-07 18:19:30

标签: java hadoop optimization mapreduce emr

所以我在mapper计算方面有一份工作。每个任务大约需要0.08秒,360026行文件大约需要8个小时来执行此操作。如果它是在一个节点上完成的。文件大小通常约为1-2块大小(通常为200 MB或更小)。

假设in代码已经过优化,无论如何都要乱用设置?我应该使用更小的块大小吗?我目前正在使用AWS EMR,在YARN上使用c4.large实例和自动缩放,但由于负载不是太高,它最多只能增加4个额外的任务节点。即使YARN内存不是太高,它仍然需要7个多小时才能完成(这是很长的一段时间)。

0 个答案:

没有答案