Apache Spark与MapReduce

时间:2018-05-01 23:04:03

标签: apache-spark hadoop mapreduce

我一直在查找Spark和MapReduce之间的差异,我发现的所有内容都是Spark在内存和磁盘上运行,这使得它显着更快。

我还读到MapReduce对于真正庞大的数据集更好,是因为你可以将更多的数据加载到磁盘而不是内存中?

但据推测,使用Spark,您无论如何都要在内存和磁盘之间移动数据,因此如果内存中的空间不足,您需要将一些内容移回磁盘,然后引入新数据进行处理。

基本上,有没有真正的理由再使用MapReduce?

1 个答案:

答案 0 :(得分:0)

据我所知,这里是Spark和Hadoop Map Reduce的简单而罕见的解决方案:

  1. Hadoop Map Reduce是批处理。

  2. 在HDFS中,高延迟。这是有关Hadoop MapReduce和Spark的完整说明:

http://commandstech.com/basic-difference-between-spark-and-map-reduce-with-examples/

火花:

  1. 来到Spark是流处理。

  2. 由于RDD而导致的低延迟。

Spark和Hadoop Map Reduce用于以更少的代码进行大量数据处理。