标签: python tensorflow gpu
我正在比较由tf.Estimator.Estimator迭代器提供的tf.data.Dataset模型的两次训练。培训由tf.train_and_evaluate()
tf.Estimator.Estimator
tf.data.Dataset
tf.train_and_evaluate()
当我查看单个训练步骤的痕迹时,我注意到GPU训练主要由IteratorGetNext调用占据,这需要4.5秒。使用cpus训练时,同一呼叫仅花费100us。请参见以下痕迹照片:
IteratorGetNext
这可能是什么原因,以及如何提高GPU IteratorGetNext的速度?