如何确定Spark中的底层MapReduce作业?

时间:2016-01-26 18:43:45

标签: apache-spark mapreduce

鉴于Spark应用程序,如何确定应用程序如何映射到其基础MapReduce作业?

2 个答案:

答案 0 :(得分:2)

Spark应用程序本身对底层执行框架一无所知。这是抽象的一部分,它允许以不同的模式运行(local,mesos,standalone,yarn.client和yarn-cluster)。

然而,您在使用spark-submit提交申请后会看到纱线申请ID,通常是这样的:

application_1453729472522_0110

您还可以使用yarn命令列出当前正在运行的应用程序,如下所示:

纱线申请表 -

将打印群集中运行的所有应用程序,Spark应用程序具有appliccationType SPARK。

答案 1 :(得分:1)

我想说每个阶段都是 MapReduce 工作。我无法为您提供参考,但根据我的经验,查看舞台构造,您可以看到演示为 Map 阶段的内容(链式map s,{{1} } s,filter s)以及 Reduce 阶段(flatMapgroupBycollect等)被归为一类阶段。您还可以仅推断 Map 或仅 Reduce Mapreduce 作业。

当您再次看到相同的chaning时,它也有助于输出DAG。

您可以在火花作业运行时访问Spark UI中的阶段。

免责声明这是从经验和演绎推理中推断出来的。