我正在尝试在集群中测试程序TensorflowOnSpark。我认为我使用了错误的spark-submit命令。请看下面
我尝试提交如图所示的工作
~]$ spark-submit mnistOnSpark.py --cluster_size 10
以上作业成功运行,但是在单个节点上运行,执行器和驱动程序都在同一台计算机上。但是我需要这项工作才能在多个节点上运行。所以我尝试了以下命令
~]$ spark-submit --master yarn-cluster mnistOnSpark.py --cluster_size 10
是我应该用来提交工作的正确命令,还是其他我应该学习的东西。
-cluster_size是mnistOnSpark.py代码的命令行参数。
答案 0 :(得分:3)
如果要在纱线簇上运行作业,则可以运行以下命令:
spark-submit --master yarn --jars <comma-separated-jars> --conf <spark-properties> --name <job_name> <python_file> <argument 1> <argument 2>
例如:
spark-submit --master yarn --jars example.jar --conf spark.executor.instances=10 --name example_job example.py arg1 arg2
对于mnistOnSpark.py
,您应按照上面命令中的说明传递参数。
火花提交认为您正在尝试通过--cluster_mode
来激发工作。
答案 1 :(得分:0)
尝试一下:
spark-submit --master yarn --deploy-mode cluster --num-executors 10 --executors-cores 2 mnistOnSpark.py