我一直在查找Spark和MapReduce之间的差异,我发现的所有内容都是Spark在内存和磁盘上运行,这使得它显着更快。
我还读到MapReduce对于真正庞大的数据集更好,是因为你可以将更多的数据加载到磁盘而不是内存中?
但据推测,使用Spark,您无论如何都要在内存和磁盘之间移动数据,因此如果内存中的空间不足,您需要将一些内容移回磁盘,然后引入新数据进行处理。
基本上,有没有真正的理由再使用MapReduce?
答案 0 :(得分:0)
据我所知,这里是Spark和Hadoop Map Reduce的简单而罕见的解决方案:
Hadoop Map Reduce是批处理。
在HDFS中,高延迟。这是有关Hadoop MapReduce和Spark的完整说明:
http://commandstech.com/basic-difference-between-spark-and-map-reduce-with-examples/
火花:
来到Spark是流处理。
由于RDD而导致的低延迟。
Spark和Hadoop Map Reduce用于以更少的代码进行大量数据处理。