我试图了解火花作业如何在纱线簇中工作
我正在使用以下命令提交作业
spark-submit --master yarn --deploy-mode cluster sparksessionexample.py
提交作业后,控制台日志如下所示
2020-05-29 20:52:48,668 INFO yarn.Client: Uploading resource file:/tmp/spark-bcd415f0-a22e-46b2-951c-5b6e4385a0c6/__spark_libs__2908230569257238890.zip -> hdfs://localhost:9000/user/hadoop/.sparkStaging/application_1590759398715_0003/__spark_libs__2908230569257238890.zip
2020-05-29 20:53:14,164 INFO yarn.Client: Uploading resource file:/home/hadoop/pythonprojects/Python/src/spark_jobs/sparksessionexample.py -> hdfs://localhost:9000/user/hadoop/.sparkStaging/application_1590759398715_0003/sparksessionexample.py
2020-05-29 20:53:14,610 INFO yarn.Client: Uploading resource file:/home/hadoop/clouderaapp/apache-spark/python/lib/pyspark.zip -> hdfs://localhost:9000/user/hadoop/.sparkStaging/application_1590759398715_0003/pyspark.zip
2020-05-29 20:53:15,984 INFO yarn.Client: Uploading resource file:/home/hadoop/clouderaapp/apache-spark/python/lib/py4j-0.10.7-src.zip -> hdfs://localhost:9000/user/hadoop/.sparkStaging/application_1590759398715_0003/py4j-0.10.7-src.zip
2020-05-29 20:53:18,362 INFO yarn.Client: Uploading resource file:/tmp/spark-bcd415f0-a22e-46b2-951c-5b6e4385a0c6/__spark_conf__7123551182035223076.zip -> hdfs://localhost:9000/user/hadoop/.sparkStaging/application_1590759398715_0003/__spark_conf__.zip
我只是想了解yarn如何执行 sparksessionexample.py 文件,我的意思是它是否在节点上创建python虚拟环境?如上所示,日志仅显示正在上载lib,conf,但是python客户端如何执行 sparksessionexample.py ?
任何人都可以帮助理解吗?
答案 0 :(得分:0)
“ Spark客户端”用于引导Spark作业的执行。
在您的情况下,这是在您的本地计算机上运行的 only 事物,因为您请求了 cluster
执行模式:
简而言之,“客户端”从不会从集群内部运行的驱动程序获得任何有用的信息。您必须检查YARN日志中运行驱动程序(它是AppMaster,通常为数字00001
)的容器。
client
执行模式运行作业-这意味着驱动程序将在与“客户端”相同的JVM,在您的本地计算机中,并在控制台中吐出其日志。