我来自MapReduce背景,我对Spark很新。我找不到一篇解释MapReduce和Spark之间架构差异的文章。到目前为止,我的理解是MapReduce和Spark的唯一区别在于“内存中”处理的概念。也就是说,Spark具有映射/缩减阶段,它们可能在集群中的两个不同节点上运行。具有相同键的对被转移到相同的减速器,并且涉及洗牌阶段。我对么?或者绘制和减少阶段的方式有所不同......
答案 0 :(得分:1)
我认为这是直接的,所以我不介意指点你写的一篇博文:
http://blog.cloudera.com/blog/2014/09/how-to-translate-from-mapreduce-to-apache-spark/
Spark是MapReduce的一个超集,从某种意义上说,你可以用Spark运算符表达MapReduce,但也有许多其他的东西。它有一大组小型操作,您可以从中构建管道。所以不是1:1的映射,但是,你可以确定很多MapReduce元素与Spark的对应关系。或者:MapReduce实际上为您提供了两项操作,这些操作的功能远远超过' map'并且'减少',到目前为止可能不是很明显。