应用错误收集

时间：2015-08-03 12:00:20

标签： hadoop mapreduce apache-spark bigdata

我同意iterative和interactive编程范例与spark-map相比非常好。我也同意我们可以使用HDFS或任何像HBase这样的hadoop数据存储作为Spark的存储层。

因此，我的问题是 - 我们在现实世界中是否有任何用例可以说hadoop MR在这些情况下比apache更好。这里“更好”用于performance, throughput, latency。 hadoop MR仍然是使用spark进行BATCH处理的好方法。

如果是这样，任何人都可以告诉advantages of hadoop MR over apache spark吗？请保留与COMPUTATION LAYER。

答案 0 :(得分：0)

如你所说，在iterative和interactive编程中，火花比hadoop好。但是火花对内存有着巨大的需求，如果内存不够，就会轻易抛出OOM异常，hadoop可以很好地处理这种情况，因为hadoop具有良好的容错机制。

其次，如果Data Tilt发生，火花也可能崩溃。我比较了火花和hadoop对系统稳健性的影响，因为这将决定工作的成功。

最近我测试火花和hadoop性能使用一些基准测试，根据结果，火花性能并不比一些负载上的hadoop好，例如kmeans，pagerank。也许记忆是对火花的限制。