Question

这是执行时间日志
正如您所看到的，它越来越快，直到一次迭代使用1.5秒为止然后越来越慢

iter: 0/700000
loss:8.13768323263
speed: 4.878s / iter

iter: 1/700000
loss:4.69941059748
speed: 3.162s / iter
...
...
...
iter: 1560/700000
loss:2.16679636637
speed: 1.496s / iter

iter: 1561/700000
loss:2.9271744887
speed: 1.496s / iter
...
...
...
iter: 3698/700000
loss:1.47574504217
speed: 1.701s / iter

iter: 3699/700000
loss:1.75555475553
speed: 1.701s / iter

使用graph.finalize()冻结图表
从源代码安装tensorflow 1.0，使用jemalloc，使用XLA构建，SSE等等

threads = tf.train.start_queue_runners(coord=coord, sess=sess)
sess.graph.finalize()  # Graph is read-only after this statement.

并按照此github实现image_reader并累积渐变（如caffe中的iter_size），所有OP都在训练循环之外

不确定是否相关
GPU内存略有增长，从5707 MiB增加到5717MiB GPU-util变得低而奇怪 1％ - ＆gt; 59％ - ＆gt; 1％ - ＆gt; 99％ - ＆gt; 0％ - ＆gt; 54％ - ＆gt; 1％ - ＆gt; 48％

以前有人遇到过这种情况吗？或有任何建议调试？

执行时间在开始时减慢并在稍后提高

0 个答案: