在分布式张量流列车上运行多个模型

时间:2017-07-04 12:41:17

标签: tensorflow distributed

我正在尝试构建a distribute tensorflow framwork template,但是有一些serval问题让我困惑。

  1. 当我在script中使用--sync_replas=True时,是否意味着我使用doc中的 Synchronous training
  2. 为什么worker_0.logworker_1.log中的全球步骤 是不是连续递增?
  3. 为什么全局步骤不是从0开始,而是像这样
  4. 1499169072.773628: Worker 0: training step 1 done (global step: 339)

    1. training stepglobal step之间的关系是什么?

    2. create cluster script可以看出,我创建了一个独立的群集。我可以同时在这个群集上运行多个不同的模型吗?

1 个答案:

答案 0 :(得分:0)

  1. 可能但取决于特定的图书馆
  2. 在分布式训练期间,可能存在竞争条件,因此全局步骤的增量和读数未完全排序。这很好。
  3. 这可能是因为你是从检查站加载的?
  4. 不清楚,取决于你正在使用的图书馆
  5. 每个群集一个模型更容易管理。不过,可以在同一台机器上创建多个tf集群。