标签: hadoop mapreduce reducers
我暗示了这样一种情况,其中输入数据严重偏向该级别,在该级别上,映射器阶段发出的键有大量记录。在洗牌和排序阶段之后,由于堆空间有限,无法将针对该键的这些记录传递到单个容器(还原器JVM)。 hadoop mapreduce如何处理此类情况?我假设我们在reducer中获得的迭代器是某种分布式迭代器,而不仅仅是内存中的迭代器。 我尝试浏览了许多文档,但在某处找不到提及。但是我可以看到pig做到了这一点,并且想了解普通mapreduce如何实现这一目标。 任何指针将不胜感激!