应用错误收集

人们在谈论Hadoop，Spark和大数据时所说的“中间结果”是什么意思？

时间：2019-09-29 18:38:04

标签： apache-spark hadoop mapreduce

我试图在大数据上学到更多，特别是在利用Hadoop和Spark方面。但是，我一直看到这个术语是“中间结果”，我不太确定它指的是什么。

例如，我读到“ Hadoop将中间结果写入计算机的存储磁盘，而Spark尽可能将那些相同结果保存在内存中。”我以为这是指Map Reduce之后的结果，但我不太确定。

有人可以详细介绍一下什么是“中间结果”，以及它们在Spark和Hadoop之间的不同之处吗？

1 个答案:

答案 0 :(得分：0)

在map阶段和reduce阶段之间，对正在处理的数据执行了shuffle和sort操作，这是整个操作的中间步骤