标签: python bigdata shuffle h5py
我有一个要洗牌的150Gb h5py数据集。
在这篇帖子Shuffle HDF5 dataset using h5py中,用户说,洗钱30Gb数据花了11分钟。但是,我尝试对数据集进行改组,这看起来耗时超过55分钟(我最终不得不取消了)。
时间是否不随数据集大小线性增加? random.shuffle如何处理数据集?一次加载单个元素吗?
random.shuffle
我没有使用分块或任何其他特殊的h5py设置。如果有帮助,数据集中的元素的形状为(8, 8, 21),dtype="int32"。
(8, 8, 21)
dtype="int32"