我尝试使用Cloud ML运行分布式TF作业。
我在本地测试了代码(使用gcloud ml local命令)。以下是一些规范:
n_epochs = 20
noofsamples = 55000
batch_size = 100
num_batches = noofsamples/batch_size = 550
使用以下规范,训练步骤= n_epochs * num_batches = 11000,这是正确的。
但是,如果我使用2个工作节点和1个参数服务器在Cloud ML中执行相同的工作,则似乎在每台机器上完成全面培训
训练步骤= 3台机器n_epochs * num_batches = 33000
事实并非如此。
你们有没有遇到这个问题?
感谢您的帮助!
由于