据我所知,Spark会预先加载来自每个节点的数据。磁盘(HDFS)进入每个节点' RDD来计算。但正如我猜测的那样,MapReduce必须还将数据从HDFS加载到内存中,然后在内存中进行计算。那么..为什么Spark更加苛刻? 只是因为当MapReduce想要进行计算但是Spark预加载数据时,MapReduce每次都会将数据加载到内存中吗?非常感谢你。
答案 0 :(得分:0)
Spark使用弹性分布式数据集(RDD)的概念,它允许透明地将数据存储在内存中,并在需要时将其保存到光盘。
另一方面,在Map和reduce任务数据之后,数据将被洗牌和排序(同步障碍)并写入磁盘。
在Spark中,没有同步障碍会降低map-reduce的速度。而内存的使用使得执行引擎非常快。
答案 1 :(得分:0)
Hadoop Map Reduce
2。在HDFS中,高延迟。这是有关Hadoop MapReduce和Spark的完整说明
http://commandstech.com/basic-difference-between-spark-and-map-reduce-with-examples/
火花:
来到Spark是流处理
由于RDD而导致的低延迟。