我有一个非常大的数组存储在hdf5文件中。我正在尝试加载它并将其作为Dask数组进行管理。
目前我的挑战是我需要在一个过程中不时地对这个数组进行随机播放,这对于一个比内存更大的数组来说是一个挑战。
所以我想要做的就是没有成功就是将dask数组块洗牌。
#Prepare data
f=h5py.File('Data.hdf5')
dset = f['/Data']
dk_array = da.from_array(dset, chunks=dset.chunks)
所以考虑到上面的背景,我怎么能改变这些块?
答案 0 :(得分:0)
如果您的数组本质上是表格式的,那么您可以考虑添加一列随机数据(请参阅da.concatenate
和da.random
),将其转换为dask.dataframe,并将该列设置为索引
作为警告,这将有点慢,因为它需要进行磁盘上的随机播放。