假设我有1000万个训练样本存储在HDF5文件中,并且我想使用TensorFlow数据集生成1000个批次的样本。但是,1000万个样本太大,无法加载到内存中。
我想要做的是一次从HDF5的内存中加载numpy数据,一次加载一百万,然后迭代以生成我的大小为1000的批次。当一百万个样本完成时,我想加载下一个从HDF5获得100万并继续。我想使用张量流中的单个数据集来对此进行管理。
但是,我没有看到如何使用来自tensorflow的Dataset API来做到这一点。
我该如何在两个级别上进行迭代(第一个级别= 100万的大块,第二个级别= 1000的小批量)。
谢谢