我的数据集比CSV格式的内存(数百千兆字节)大,我必须将其用作Tensorflow模型的训练集。 使用小的示例数据集是没有问题的,只需将所有内容加载到内存中即可;但处理这个问题的最佳策略应该是什么?
我猜测唯一的方法是以块的形式处理文件;问题是应该在整个训练集上计算成本。我认为这是一个解决方案,可以在最大的块上做几个时期(并且仅计算块中数据的成本),然后在下一个块上执行下一个时期,依此类推(可能尝试制作模型) "查看"每个块不止一次)。
这是唯一的解决方案,是否合理?或者还有其他更好的方法吗?