应用错误收集

我已经在多gpu和分布式上使用tensorflow训练了语音识别网络。但是在相同步骤上，训练速度和准确性与multi-gpu不同。我的意思是，如果我在多GPU版本中训练2000步，则训练速度为350个示例/秒，但是在分布式版本中，每个工人在1000个步骤之间有110个示例/秒；网络为125Mb / s，2 ps和2名工人。我想知道如何提高分布式培训的绩效。我的代码有问题吗？这是我的代码和说明。code有人可以给我一些建议吗？

张量流的性能分布

0 个答案: