应用错误收集

我已经接受了训练let output = {status: false}; if(execute.permission) { let message: string[] = execute.params; if(message.length >= 2) { // Destructuring follows [output['position'], output['message']] = message; } }模型和tensorflow。我有3台服务器，每台服务器有32个CPU和8个Titan X gpu。

当我用单个服务器和单个gpu训练这个模型时，它连续使用gpu 50~60％。步进时间也合理（0.2~0.3秒）。

但是，当我使用群集（1个参数服务器，2个具有异步的工作人员）训练相同模型时，他们无法使用gpu和步长增加（3秒，比单个版本慢10倍）。

我发现参数服务器的参数大小为220MB，网络使用率为2Gbits / sec。我认为有降低参数更新频率的方法，但我无法找到。

有办法解决这个问题吗？

降低参数更新频率。
减少嵌入参数，不会丢失信息。
其他解决方案。

提前致谢。

seq2seq嵌入大小对于分布式训练来说太大了

1 个答案: