Question

我有一个TensorFlow设置，如下所示：

for b in batch_loader.iter_batches(self.TRAINING_SET):
    ...
    self.session.run(train_step, feed_dict=...)

iter_batches函数将numpy内存映射文件中的图像数据加载到RAM中。测量表明，从磁盘加载数据大约需要运行train_step的1/3。此外，train_step操作根本不需要访问硬盘驱动器。

因此，如果我在批量i+1进行培训时加载下一批i，我可以更快地完成所有工作。

我可以为此使用一些python多处理库吗？或者TensorFlow是否为此用例提供了一些东西？我环顾了他们的文档，但没有找到任何东西。是否有规范的方法来做到这一点？

Answer 1

您可以使用tf.train.start_queue_runners和tf.train.Coordinator设置队列。有关详细信息，请参阅here。