我同意iterative
和interactive
编程范例与spark-map相比非常好。我也同意我们可以使用HDFS或任何像HBase这样的hadoop数据存储作为Spark的存储层。
因此,我的问题是 - 我们在现实世界中是否有任何用例可以说hadoop MR在这些情况下比apache更好。这里“更好”用于performance, throughput, latency
。 hadoop MR仍然是使用spark进行BATCH处理的好方法。
如果是这样,任何人都可以告诉advantages of hadoop MR over apache spark
吗?请保留与COMPUTATION LAYER
。
答案 0 :(得分:0)
如你所说,在iterative
和interactive
编程中,火花比hadoop好。但是火花对内存有着巨大的需求,如果内存不够,就会轻易抛出OOM异常,hadoop可以很好地处理这种情况,因为hadoop具有良好的容错机制。
其次,如果Data Tilt发生,火花也可能崩溃。我比较了火花和hadoop对系统稳健性的影响,因为这将决定工作的成功。
最近我测试火花和hadoop性能使用一些基准测试,根据结果,火花性能并不比一些负载上的hadoop好,例如kmeans,pagerank。也许记忆是对火花的限制。