我有一个关于如何使用python / h5py最好地写入hdf5文件的问题。
我有以下数据:
-----------------------------------------
| timepoint | voltage1 | voltage2 | ...
-----------------------------------------
| 178 | 10 | 12 | ...
-----------------------------------------
| 179 | 12 | 11 | ...
-----------------------------------------
| 185 | 9 | 12 | ...
-----------------------------------------
| 187 | 15 | 12 | ...
...
大约10 ^ 4列,大约10 ^ 7行。 (大约10 ^ 11(1000亿)个元素,或者~100GB,1个字节的整数)。
使用这些数据,典型的使用几乎是一次写入,多次读取,典型的读取案例是获取第1列和另一列(比如254),将两列加载到内存中,并做一些奇特的统计。
我认为一个好的hdf5结构将使上表中的每一列都是hdf5组,从而产生10 ^ 4组。这样我们就不需要将所有数据都读入内存了,是吗? hdf5结构虽然尚未定义,但它可以是任何东西。
现在的问题是: 我一次收到~10 ^ 4行的数据(每次都没有完全相同的行数),需要将它逐步写入hdf5文件。我该怎么写这个文件?
我正在考虑python和h5py,但如果推荐的话可以使用其他工具。正在进行分组,例如
dset = f.create_dataset("voltage284", (100000,), maxshape=(None,), dtype='i8', chunks=(10000,))
然后当另一个10 ^ 4行的块到达时,替换数据集?
或者将每个10 ^ 4行的块存储为单独的数据集是否更好?或者我真的需要知道最后的行数吗? (这很难获得,但也许可能)。
如果hdf5不适合这份工作,我可以保释,但我认为一旦尴尬的写作完成,它就会很精彩。
答案 0 :(得分:23)
Per the FAQ,您可以使用dset.resize
展开数据集。例如,
import os
import h5py
import numpy as np
path = '/tmp/out.h5'
os.remove(path)
with h5py.File(path, "a") as f:
dset = f.create_dataset('voltage284', (10**5,), maxshape=(None,),
dtype='i8', chunks=(10**4,))
dset[:] = np.random.random(dset.shape)
print(dset.shape)
# (100000,)
for i in range(3):
dset.resize(dset.shape[0]+10**4, axis=0)
dset[-10**4:] = np.random.random(10**4)
print(dset.shape)
# (110000,)
# (120000,)
# (130000,)
答案 1 :(得分:7)
正如@unutbu指出的那样,dset.resize
是一个很好的选择。在考虑您的工作流程时,查看pandas
及其HDF5支持可能会有用。听起来HDF5是一个合理的选择,但是你可能会在顶部使用额外的层来更好地表达你的问题。
要考虑的一件大事是数据的方向。如果您主要对读取感兴趣,并且主要是按列提取数据,那么听起来您可能想要转置数据,以便读取可以按行发生,因为HDF5按行主要顺序存储。