我试图在大数据上学到更多,特别是在利用Hadoop和Spark方面。但是,我一直看到这个术语是“中间结果”,我不太确定它指的是什么。
例如,我读到“ Hadoop将中间结果写入计算机的存储磁盘,而Spark尽可能将那些相同结果保存在内存中。”我以为这是指Map Reduce之后的结果,但我不太确定。
有人可以详细介绍一下什么是“中间结果”,以及它们在Spark和Hadoop之间的不同之处吗?
答案 0 :(得分:0)
在map阶段和reduce阶段之间,对正在处理的数据执行了shuffle和sort操作,这是整个操作的中间步骤