Spark

时间:2015-12-04 14:43:12

标签: hadoop apache-spark yarn

我想知道mapreduce。*参数是否适用于Spark。

据我所知,在Spark中,地图输出没有缓冲区,对于reduce任务,整个过程也不同。像 mapreduce.task.io.sort.mb,mapreduce.reduce.shuffle.input.buffer.percent或mapreduce.reduce.input.buffer.percent 这样的参数控制着这些缓冲区。 我正在优化在hadoop / yarn集群中运行的spark任务/作业的参数。

可以肯定地说这些mapreduce参数并不重要,我只关心spark。*参数,因为map,shuffle和reduce部分是不同的?

1 个答案:

答案 0 :(得分:0)

这是安全的,因为Spark并没有使用MapReduce作为处理引擎,但它直接与YARN交互以提交操作。因此,当您使用Spark时,没有安排MapReduce作业,但您有一个Spark应用程序和Spark作业。