应用错误收集

假设我有1000万个训练样本存储在HDF5文件中，并且我想使用TensorFlow数据集生成1000个批次的样本。但是，1000万个样本太大，无法加载到内存中。

我想要做的是一次从HDF5的内存中加载numpy数据，一次加载一百万，然后迭代以生成我的大小为1000的批次。当一百万个样本完成时，我想加载下一个从HDF5获得100万并继续。我想使用张量流中的单个数据集来对此进行管理。

但是，我没有看到如何使用来自tensorflow的Dataset API来做到这一点。

我该如何在两个级别上进行迭代（第一个级别= 100万的大块，第二个级别= 1000的小批量）。

谢谢