如何知道每个Spark任务/执行程序运行哪种工作

时间:2019-03-08 21:56:30

标签: apache-spark pyspark spark-ui

当我的应用程序在Spark集群上运行时,我知道以下内容

1)执行计划

2)具有作为RDD或操作的节点的DAG

3)所有作业/阶段/执行者/任务

但是,我不知道如何知道给定任务ID的任务是什么样的工作(RDD或操作)。

从任务中,我可以知道它的执行者ID和运行的机器。在计算机上,如果我们grep Java和ID,我们可以得到

/bin/bash -c /usr/lib/jvm/jdk1.8.0_192/bin/java -server -Xmx12288m '-XX:MaxMetaspaceSize=256M' '-Djava.library.path=/opt/hadoop/lib/native' '-Djava.util.logging.config.file=/opt/spark2/conf/parquet.logging.properties' -Djava.io.tmpdir=/tmp/hadoop-root/nmlocaldir/usercache/appcache/application_1549756402460_92964/container_1549756402460_92964_01_000012/tmp '-Dspark.driver.port=35617' '-Dspark.network.timeout=3000s' -Dspark.yarn.app.container.log.dir=/mnt/yarn-logs/userlogs/application_1549756402460_92964/container_1549756402460_92964_01_000012 -XX:OnOutOfMemoryError='kill %p' org.apache.spark.executor.CoarseGrainedExecutorBackend --driver-url spark://CoarseGrainedScheduler@10.0.72.160:35617 --executor-id 11 --hostname abc --cores 3 --app-id application_1549756402460_92964 --user-class-path file:/tmp/hadoop-root/nm-local-dir/usercache/appcache/application_1549756402460_92964/container_1549756402460_92964_01_000012/__app__.jar 1>/mnt/yarn-logs/userlogs/application_1549756402460_92964/container_1549756402460_92964_01_000012/stdout 2> /mnt/yarn-logs/userlogs/application_1549756402460_92964/container_1549756402460_92964_01_000012/stderr

但是它没有告诉我它的作用... Spark是否公开了信息?

0 个答案:

没有答案