使用大于内存数据集的训练Tensorfow模型(Python 2.7)

时间:2016-07-28 15:54:20

标签: python python-2.7 csv tensorflow chunks

我的数据集比CSV格式的内存(数百千兆字节)大,我必须将其用作Tensorflow模型的训练集。 使用小的示例数据集是没有问题的,只需将所有内容加载到内存中即可;但处理这个问题的最佳策略应该是什么?

我猜测唯一的方法是以块的形式处理文件;问题是应该在整个训练集上计算成本。我认为这是一个解决方案,可以在最大的块上做几个时期(并且仅计算块中数据的成本),然后在下一个块上执行下一个时期,依此类推(可能尝试制作模型) "查看"每个块不止一次)。

这是唯一的解决方案,是否合理?或者还有其他更好的方法吗?

0 个答案:

没有答案