应用错误收集

我尝试使用Cloud ML运行分布式TF作业。

我在本地测试了代码（使用gcloud ml local命令）。以下是一些规范：

n_epochs = 20
noofsamples = 55000
batch_size = 100
num_batches = noofsamples/batch_size = 550

使用以下规范，训练步骤= n_epochs * num_batches = 11000，这是正确的。

但是，如果我使用2个工作节点和1个参数服务器在Cloud ML中执行相同的工作，则似乎在每台机器上完成全面培训

训练步骤= 3台机器n_epochs * num_batches = 33000

事实并非如此。

你们有没有遇到这个问题？

感谢您的帮助！

由于