使用Cloud ML的分布式TensorFlow - 培训

时间:2017-09-01 11:24:06

标签: tensorflow google-cloud-ml

我尝试使用Cloud ML运行分布式TF作业。

我在本地测试了代码(使用gcloud ml local命令)。以下是一些规范:

n_epochs = 20
noofsamples = 55000
batch_size = 100
num_batches = noofsamples/batch_size = 550

使用以下规范,训练步骤= n_epochs * num_batches = 11000,这是正确的。

但是,如果我使用2个工作节点和1个参数服务器在Cloud ML中执行相同的工作,则似乎在每台机器上完成全面培训

训练步骤= 3台机器n_epochs * num_batches = 33000

事实并非如此。

你们有没有遇到这个问题?

感谢您的帮助!

由于

0 个答案:

没有答案