人们在谈论Hadoop,Spark和大数据时所说的“中间结果”是什么意思?

时间:2019-09-29 18:38:04

标签: apache-spark hadoop mapreduce

我试图在大数据上学到更多,特别是在利用Hadoop和Spark方面。但是,我一直看到这个术语是“中间结果”,我不太确定它指的是什么。

例如,我读到“ Hadoop将中间结果写入计算机的存储磁盘,而Spark尽可能将那些相同结果保存在内存中。”我以为这是指Map Reduce之后的结果,但我不太确定。

有人可以详细介绍一下什么是“中间结果”,以及它们在Spark和Hadoop之间的不同之处吗?

1 个答案:

答案 0 :(得分:0)

在map阶段和reduce阶段之间,对正在处理的数据执行了shuffle和sort操作,这是整个操作的中间步骤