MapReduce在哪些类型的用例中优于Spark?

时间:2014-09-09 22:02:52

标签: hadoop mapreduce apache-spark

我刚参加了一个关于Spark的入门课程,并询问演讲者Spark是否可以完全取代MapReduce,并且被告知Spark可以用于替换任何用例的MapReduce,但是有一些特殊的用例,MapReduce实际上更快比Spark。

MapReduce比Spark更快解决的用例有哪些特点?

1 个答案:

答案 0 :(得分:2)

请原谅我quoting myself from Quora,但是:

  • 对于数据并行,一次通过,类似ETL的作业MapReduce的设计,MapReduce与Spark等效相比重量更轻
  • Spark相当成熟,YARN现在也是如此,但是Spark-on-YARN仍然很新。这两者可能还没有最佳整合。例如,直到最近,我才认为Spark可以根据核心数量向YARN询问分配情况?那就是:MapReduce可能更容易理解,管理和调整

你可以reproduce almost all of MapReduce's behavior in Spark,因为Spark有更简单,更简单的功能,可以用来产生大量的执行。你并不总是想模仿MapReduce。

Spark无法做到的一件事就是你从经典MapReduce如何运作中获得的那种非核心类型,但即将到来。我想,MultipleOutputs之类的东西也没有非常直接的类比。