应用错误收集

在Hadoop中对Mappers的输出进行分区

时间：2013-09-22 11:58:04

标签： hadoop mapreduce

这是关于Hadoop的一个非常基本的问题：

假设我有3 mappers和2 reducers。映射器产生以下输出：

Mapper 1 output : {1 -> "a1", 2 -> "b1"}, 
Mapper 2 output : {2 -> "b2", 3 -> "c2"}, 
Mapper 3 output : {1 -> "a3", 3 -> "c3"}

现在，据我所知，框架将输出分为两部分（每reducer部分）。框架是否在分区之前对所有输出进行排序？ reducers是否可能获得以下输入？

Reducer 1 input : {1 -> "a1", 2 -> "b1", "b2"} Reducer 2 input : {1 -> "a3", 3 -> "c2", "c3"}

1 个答案:

答案 0 :(得分：2)

假设您的符号在上面是Key -> Value，那么这应该是不可能的，因为您将密钥1同时转到reducer 1和reducer 2（可能这是拼写错误？）。

关于操作的顺序：

K，V对被写入输出收集器/映射上下文（K，V对被序列化为内存中的缓冲区）

一旦内存缓冲区的大小达到阈值，缓冲区数据就会溢出到磁盘+缓冲区清除

每次泄漏：

缓冲区按键排序（再次在内存中）

针对每个分区迭代此缓冲区，并将该分区的K，V对写入溢出文件（单个溢出文件按顺序包含所有分区，并且还会写入一些索引元数据以了解每个分区的位置从文件开始）。

因此，在地图任务结束时，您将有一个或多个已排序的溢出（按分区排序，然后是键）。

如果你有一个组合器，那么组合器可以在为该分区写下K，V对之前运行（如果该分区中的对数超过某个阈值）。

相关问题

在hadoop中为映射器输出文件

hadoop - 如何确定总映射器

在Hadoop中生成多个大小相同的输出文件

在Hadoop中对Mappers的输出进行分区

将所有映射器中的数据发送到所有reducer

如何编号我的分割并选择正确的映射器/缩减器数量

从文件

当我运行配置单元查询时，如何减少映射器的数量？

即使某些映射器失败，也可以在完全映射的架构中保存已完成的映射器的输出

最新问题

我写了这段代码，但我无法理解我的错误

我无法从一个代码实例的列表中删除 None 值，但我可以在另一个实例中。为什么它适用于一个细分市场而不适用于另一个细分市场？

是否有可能使 loadstring 不可能等于打印？卢阿

java中的random.expovariate()

Appscript 通过会议在 Google 日历中发送电子邮件和创建活动

为什么我的 Onclick 箭头功能在 React 中不起作用？

在此代码中是否有使用“this”的替代方法？

在 SQL Server 和 PostgreSQL 上查询，我如何从第一个表获得第二个表的可视化

每千个数字得到

更新了城市边界 KML 文件的来源？