我决定使用其分层结构将数据存储在HDF5中,而不是依赖于文件系统。 不幸的是,我遇到了性能问题。
我的数据格式如下: 我有大约70个顶级组,对应于日期,每个组包含大约8000个数据集。 我想查看每天数据集数量的列表:
for date in hdf5.keys():
print(len(hdf5[date]))
我觉得这有点令人沮丧,这需要2秒/次迭代。
另外,我有两个不同的hdf5文件,上面的布局,较大的一个文件慢得多。
我做错了什么?
答案 0 :(得分:1)
尝试使用libver最新标志创建文件:
f = h5py.File('name.hdf5', libver='latest')
如果每组有大量数据集或每个数据集的属性,这将会快得多。