标签: tensorflow tensorflow-estimator
具有3个GPU的作业比使用1.10版的单个GPU的作业(该作业在Google的Cloud ML Engine上运行)花费的时间长3倍(成本是9倍)
当我扩展集群时,我期望训练时间会大致线性加速。
有什么想法可能导致这种情况吗?在我们的applicationRuntime 1.10版本中,很可能是错误。代码,因为在训练其中一个公共样本(例如imdb)时不会重现。
从一台CPU转移到一台GPU具有明显的性能优势。
我们的模型使用Estimator API。