对于运行一系列顺序处理任务,spark是否比map-reduce更有效?

时间:2016-08-08 16:28:00

标签: apache-spark mapreduce

我有一个完美的MapReduce工作。我想我可以通过将其重写为Spark而受益,并且它会有显着差异,例如之前性能的两倍吗?我的MapReduce作业没有它只是转换数据的reducer,没有复杂的计算,对同一输入数据没有迭代操作,所以看起来Spark内存中的功能在我的情况下是无用的。

让我担心的是,使用MapReduce我不需要设置内存量和完成作业所需的执行程序数量,它们将根据输入数据的大小计算。如果使用Spark,我将不得不使用spark.executor.memorynum-executors,动态分配会对我们的群集造成一些麻烦。

0 个答案:

没有答案