标签: java hadoop out-of-memory amazon-emr
在仅限reduce的Hadoop作业中,输入文件由身份映射器处理,并且无需修改即可发送到Reducer。在我的某些工作中,我非常惊讶地看到作业在地图阶段失败,出现“内存不足错误”和“超出GC开销限制”。
据我了解,身份映射器上的内存泄漏是不可能的。 造成这种错误的原因是什么?
答案 0 :(得分:2)
经过几个小时的研究和反复试验后,我意识到为TASK组配置的机器是内存不多的小型实例,而且更有趣的是,我在内存耗尽的时候是在洗牌期间映射。