hadoop mapreduce中的reducer如何处理具有比单个容器可以处理的值更多的值的键?

时间:2018-11-22 19:07:30

标签: hadoop mapreduce reducers

我暗示了这样一种情况,其中输入数据严重偏向该级别,在该级别上,映射器阶段发出的键有大量记录。在洗牌和排序阶段之后,由于堆空间有限,无法将针对该键的这些记录传递到单个容器(还原器JVM)。 hadoop mapreduce如何处理此类情况?我假设我们在reducer中获得的迭代器是某种分布式迭代器,而不仅仅是内存中的迭代器。
我尝试浏览了许多文档,但在某处找不到提及。但是我可以看到pig做到了这一点,并且想了解普通mapreduce如何实现这一目标。
任何指针将不胜感激!

0 个答案:

没有答案