应用错误收集

映射/缩减阶段如何在Spark中起作用

时间：2015-03-09 21:02:28

标签： apache-spark

我来自MapReduce背景，我对Spark很新。我找不到一篇解释MapReduce和Spark之间架构差异的文章。到目前为止，我的理解是MapReduce和Spark的唯一区别在于“内存中”处理的概念。也就是说，Spark具有映射/缩减阶段，它们可能在集群中的两个不同节点上运行。具有相同键的对被转移到相同的减速器，并且涉及洗牌阶段。我对么？或者绘制和减少阶段的方式有所不同......

1 个答案:

答案 0 :(得分：1)

我认为这是直接的，所以我不介意指点你写的一篇博文：

http://blog.cloudera.com/blog/2014/09/how-to-translate-from-mapreduce-to-apache-spark/

Spark是MapReduce的一个超集，从某种意义上说，你可以用Spark运算符表达MapReduce，但也有许多其他的东西。它有一大组小型操作，您可以从中构建管道。所以不是1：1的映射，但是，你可以确定很多MapReduce元素与Spark的对应关系。或者：MapReduce实际上为您提供了两项操作，这些操作的功能远远超过＆＃39; map＆＃39;并且＆＃39;减少＆＃39;，到目前为止可能不是很明显。