应用错误收集

我有一个要洗牌的150Gb h5py数据集。

在这篇帖子Shuffle HDF5 dataset using h5py中，用户说，洗钱30Gb数据花了11分钟。但是，我尝试对数据集进行改组，这看起来耗时超过55分钟（我最终不得不取消了）。

时间是否不随数据集大小线性增加？ random.shuffle如何处理数据集？一次加载单个元素吗？

我没有使用分块或任何其他特殊的h5py设置。如果有帮助，数据集中的元素的形状为(8, 8, 21)，dtype="int32"。