是否存在hadoop map-reduce比apache spark更好的用例?

时间:2015-08-03 12:00:20

标签: hadoop mapreduce apache-spark bigdata

我同意iterativeinteractive编程范例与spark-map相比非常好。我也同意我们可以使用HDFS或任何像HBase这样的hadoop数据存储作为Spark的存储层。

因此,我的问题是 - 我们在现实世界中是否有任何用例可以说hadoop MR在这些情况下比apache更好。这里“更好”用于performance, throughput, latency。 hadoop MR仍然是使用spark进行BATCH处理的好方法。

如果是这样,任何人都可以告诉advantages of hadoop MR over apache spark吗?请保留与COMPUTATION LAYER

相关的整个讨论范围

1 个答案:

答案 0 :(得分:0)

如你所说,在iterativeinteractive编程中,火花比hadoop好。但是火花对内存有着巨大的需求,如果内存不够,就会轻易抛出OOM异常,hadoop可以很好地处理这种情况,因为hadoop具有良好的容错机制。

其次,如果Data Tilt发生,火花也可能崩溃。我比较了火花和hadoop对系统稳健性的影响,因为这将决定工作的成功。

最近我测试火花和hadoop性能使用一些基准测试,根据结果,火花性能并不比一些负载上的hadoop好,例如kmeans,pagerank。也许记忆是对火花的限制。