标签: tensorflow
我有一个TensorFlow模型,该模型计算函数g_theta(f_phi(x)),其中theta和phi被独立训练(f和g有单独的损失函数,并且我停止了g的梯度向后传播到f)。我有兴趣将训练分为两个GPU,一个用于f,一个用于g。潜在地,如果f计算比g计算快,则丢弃一些f计算以使两个GPU保持全速运行是有意义的。我已经在TensorFlow中阅读了有关多GPU培训的一些内容,但没有找到任何可以解决我的情况的信息,也没有关于最佳实践的建议,以免不必要地浪费时间使用低效的方法。