我有一个节点13的集群。我正在使用Keras api在集群环境中测试TensorflowOnSpark。 Here is github link for Keras example using TensroflowOnSpark
我下载了他们提供的示例代码,并在主节点上提交了一份作业。成功执行工作。但是它仅使用主IP,并在主的不同端口号上运行作业(例如:master:172.9.9.9:1029,worker:172.9.9.9:1208等)。
这是我现在想使用10个节点进行测试的命令。
~]$ spark-submit mnist_mlp.py --cluster_size 10
我刚刚传递了cluster_size参数,而忽略了代码示例中提到的所有参数,因为它们是可选参数
谁能告诉我如何使用整个群集(所有节点)进行mnist训练。