Spark vs MapReduce,为什么Spark比MR更快,原理是什么?

时间:2014-08-19 02:48:44

标签: hadoop mapreduce apache-spark

据我所知,Spark会预先加载来自每个节点的数据。磁盘(HDFS)进入每个节点' RDD来计算。但正如我猜测的那样,MapReduce必须将数据从HDFS加载到内存中,然后在内存中进行计算。那么..为什么Spark更加苛刻? 只是因为当MapReduce想要进行计算但是Spark预加载数据时,MapReduce每次都会将数据加载到内存中吗?非常感谢你。

2 个答案:

答案 0 :(得分:0)

Spark使用弹性分布式数据集(RDD)的概念,它允许透明地将数据存储在内存中,并在需要时将其保存到光盘。

另一方面,在Map和reduce任务数据之后,数据将被洗牌和排序(同步障碍)并写入磁盘。

在Spark中,没有同步障碍会降低map-reduce的速度。而内存的使用使得执行引擎非常快。

答案 1 :(得分:0)

Hadoop Map Reduce

  1. Hadoop Map Reduce是批处理

2。在HDFS中,高延迟。这是有关Hadoop MapReduce和Spark的完整说明

http://commandstech.com/basic-difference-between-spark-and-map-reduce-with-examples/

火花:

  1. 来到Spark是流处理

  2. 由于RDD而导致的低延迟。