标签: tensorflow
我一直在尝试在语言建模任务中使用分布式Tensorflow,其中包含两到三个工作人员和一个参数服务器。我的工作人员正在进行异步渐变更新这种设置在每秒梯度更新次数方面肯定更有效,但我只需使用一个训练过程就能更快地获得更低的错误。
是否有任何提示让分布式培训工作?
重要的是每秒没有太多的渐变更新吗?
我是否需要使用更低的学习率?我该怎么办?
我注意到的另一件事是,当使用分布式培训时,一些迷你批次的日志损失可能比预期的大50倍。我很好奇在成本函数中可能导致这些峰值的原因以及它是否很重要。