带有Pyspark文件的Spark-Submit。

时间:2018-11-25 21:00:18

标签: apache-spark pyspark

我正在尝试在集群中测试程序TensorflowOnSpark。我认为我使用了错误的spark-submit命令。请看下面

我尝试提交如图所示的工作

~]$ spark-submit mnistOnSpark.py --cluster_size 10

以上作业成功运行,但是在单个节点上运行,执行器和驱动程序都在同一台计算机上。但是我需要这项工作才能在多个节点上运行。所以我尝试了以下命令

~]$ spark-submit --master yarn-cluster mnistOnSpark.py --cluster_size 10

是我应该用来提交工作的正确命令,还是其他我应该学习的东西。

-cluster_size是mnistOnSpark.py代码的命令行参数。

2 个答案:

答案 0 :(得分:3)

如果要在纱线簇上运行作业,则可以运行以下命令:

spark-submit --master yarn --jars <comma-separated-jars> --conf <spark-properties> --name <job_name> <python_file> <argument 1> <argument 2>

例如:

spark-submit --master yarn --jars example.jar --conf spark.executor.instances=10 --name example_job example.py arg1 arg2

对于mnistOnSpark.py,您应按照上面命令中的说明传递参数。

火花提交认为您正在尝试通过--cluster_mode来激发工作。

答案 1 :(得分:0)

尝试一下:

spark-submit --master yarn --deploy-mode cluster --num-executors 10 --executors-cores 2 mnistOnSpark.py