在Tensorflow中处理非常大的数据集

时间:2017-04-26 14:54:08

标签: machine-learning tensorflow

我有一个相对较大的数据集(> 15 GB)作为Pandas数据帧存储在一个文件中。我想将此数据转换为TFRecords格式,然后将其提供给我的计算图。我正在学习本教程:https://github.com/tensorflow/tensorflow/blob/master/tensorflow/examples/how_tos/reading_data/convert_to_records.py

但是,这仍然涉及将整个数据集加载到内存中。有没有一种方法可以直接将大数据集转换为TFrecords而无需将所有内容加载到内存中?在这种情况下甚至需要TFRecords还是我可以在训练期间从磁盘读取数组?

备选方案正在使用np.memmap或将数据框分成更小的部分,但我想知道是否可以将整个数据集转换为TFrecord格式。

0 个答案:

没有答案