我正在尝试使用Tensorflow Object Detection API在Cloud ML Engine上训练MobileNet V1 SSD,我希望加快我的训练时间。常识说理想情况下应该增加workerCount
,但这似乎是实验性的。有些帖子谈到正确设置parameterServerCount
和workerCount
的值,但我找不到与此相关的任何好的文档。任何有关这方面的帮助将不胜感激。
答案 0 :(得分:0)
这些字段用于分布式培训: https://www.tensorflow.org/deploy/distributed
一般来说,更多的工人将加快培训速度,但是在某些时候,这种加速可能变得微不足道。
parameterServerType用于存储模型参数,只要它不是瓶颈,就不需要添加更多。