根据教程distributed TensorFlow tutorial,我已经在群集(多个主机/节点)上实现并部署了CNN培训示例。
现在,我想在包含一些主机/节点(仅CPU)的集群中运行Tensorflow Slim示例。在distributed TensorFlow tutorial的示例代码中,我可以使用--ps_hosts, --worker_host, --job_name
指定集群和特定的作业类型(ps或worker)。
但是,在train_image_classifier.py中,我没有找到可用于指定集群和作业名称的参数。这是部署TF slim的教程:TF Slim Deploy 。
我想知道当前的TF slim库是否支持在多个节点上部署训练作业。如果是,如何在集群上启动分布式TF slim工作?如果您可以提供一些示例代码/脚本,就像distributed TensorFlow tutorial中的代码示例那样,那将是很好的。
谢谢!