hadoop - hadoop reducer的reduce（）调用可以采用的最大记录数是多少？

hadoop reducer的reduce（）调用可以采用的最大记录数是多少？

时间：2011-03-15 01:44:28

标签： hadoop lazy-loading mapreduce

我有一个mapper，它的输出通过我自己的Partitioner映射到多个不同的reducer实例。我的分区程序确保将给定的内容始终发送到给定的reducer实例。我想知道的是，如果由于某种原因，输入数据是偏斜的，并且我得到一百万条记录（更准确地说，#records不能适合内存）特定键，是否有任何可能的方法减速器将还行吗？我的意思是，hadoop迭代是否被传递给reducer一个懒惰的加载器？

1 个答案:

答案 0 :(得分：2)

与Reducer关联的值的唯一实际限制是本地磁盘上的可用空间，包括Map和Reduce端。这可以通过添加更多节点以及更多Map / Reduce任务来管理，具体取决于您的倾斜。

所以是的，Iterator从内存和磁盘的组合中加载值。

hadoop reducer的reduce（）调用可以采用的最大记录数是多少？
一组中的所有记录都会调用'reduce'一次吗？
Hadoop - 减少溢出记录的数量
EpGap可以采取的最大值是多少？
hadoop公平调度程序的最大池数是多少？
Text Reduce程序中Text数据类型可以接受的最大大小是多少？
hive中支持的最大字段数（列数）是多少？
如果减少器的输入在Hadoop MapReduce中太大会怎么样？
为什么使用Reduce输出记录减少输入记录？
hadoop：减少输出记录= 0

我写了这段代码，但我无法理解我的错误
我无法从一个代码实例的列表中删除 None 值，但我可以在另一个实例中。为什么它适用于一个细分市场而不适用于另一个细分市场？
是否有可能使 loadstring 不可能等于打印？卢阿
java中的random.expovariate()
Appscript 通过会议在 Google 日历中发送电子邮件和创建活动
为什么我的 Onclick 箭头功能在 React 中不起作用？
在此代码中是否有使用“this”的替代方法？
在 SQL Server 和 PostgreSQL 上查询，我如何从第一个表获得第二个表的可视化
每千个数字得到
更新了城市边界 KML 文件的来源？