Question

我正在尝试在集群中测试程序TensorflowOnSpark。我认为我使用了错误的spark-submit命令。请看下面

我尝试提交如图所示的工作

~]$ spark-submit mnistOnSpark.py --cluster_size 10

以上作业成功运行，但是在单个节点上运行，执行器和驱动程序都在同一台计算机上。但是我需要这项工作才能在多个节点上运行。所以我尝试了以下命令

~]$ spark-submit --master yarn-cluster mnistOnSpark.py --cluster_size 10

是我应该用来提交工作的正确命令，还是其他我应该学习的东西。

-cluster_size是mnistOnSpark.py代码的命令行参数。

Answer 1

如果要在纱线簇上运行作业，则可以运行以下命令：

spark-submit --master yarn --jars <comma-separated-jars> --conf <spark-properties> --name <job_name> <python_file> <argument 1> <argument 2>

例如：

spark-submit --master yarn --jars example.jar --conf spark.executor.instances=10 --name example_job example.py arg1 arg2

对于mnistOnSpark.py，您应按照上面命令中的说明传递参数。

火花提交认为您正在尝试通过--cluster_mode来激发工作。

Answer 2

尝试一下：

spark-submit --master yarn --deploy-mode cluster --num-executors 10 --executors-cores 2 mnistOnSpark.py