应用错误收集

hadoop mapreduce两种

时间：2016-04-03 18:37:33

标签： sorting mapreduce

我是Hadoop mapreduce的新手。我浏览了一些教程并注意到mapper的输出在reducer方面进行了排序，我们也有一个shuffle＆amp;排序阶段。

那么为什么我们有两种呢？它们的目的是什么？

谢谢！

1 个答案:

答案 0 :(得分：0)

映射器：它将来自源的输入数据排列成键值对，以便进一步处理。

Reducer：聚合逻辑写在这里。

Shuffler的作用是shuffle和sort，它将mapper的输出传递给reducer。这是由MR framework在内部完成的。但是，我们可以使用MR Api和Java实现我们自己的自定义shuffler。

参考WordCount的这个例子：

http://kickstarthadoop.blogspot.in/2011/04/word-count-hadoop-map-reduce-example.html 请参阅此处。 https://hadoop.apache.org/docs/r1.2.1/mapred_tutorial.html