大型HDF5文件的Tensorflow数据集管道

时间:2018-09-28 06:47:06

标签: tensorflow dataset

假设我有1000万个训练样本存储在HDF5文件中,并且我想使用TensorFlow数据集生成1000个批次的样本。但是,1000万个样本太大,无法加载到内存中。

我想要做的是一次从HDF5的内存中加载numpy数据,一次加载一百万,然后迭代以生成我的大小为1000的批次。当一百万个样本完成时,我想加载下一个从HDF5获得100万并继续。我想使用张量流中的单个数据集来对此进行管理。

但是,我没有看到如何使用来自tensorflow的Dataset API来做到这一点。

我该如何在两个级别上进行迭代(第一个级别= 100万的大块,第二个级别= 1000的小批量)。

谢谢

0 个答案:

没有答案