在CPU上的迭代器比GPU工作者快40,000倍

时间:2019-03-29 02:01:35

标签: python tensorflow gpu

我正在比较由tf.Estimator.Estimator迭代器提供的tf.data.Dataset模型的两次训练。培训由tf.train_and_evaluate()

处理

当我查看单个训练步骤的痕迹时,我注意到GPU训练主要由IteratorGetNext调用占据,这需要4.5秒。使用cpus训练时,同一呼叫仅花费100us。请参见以下痕迹照片:

cpu培训:

cpu training

gpu培训:

gpu training

这可能是什么原因,以及如何提高GPU IteratorGetNext的速度?

0 个答案:

没有答案