在HDF5中列出组中的数据集

时间:2016-03-12 03:28:23

标签: python hdf5

我决定使用其分层结构将数据存储在HDF5中,而不是依赖于文件系统。 不幸的是,我遇到了性能问题。

我的数据格式如下: 我有大约70个顶级组,对应于日期,每个组包含大约8000个数据集。 我想查看每天数据集数量的列表:

for date in hdf5.keys():
   print(len(hdf5[date]))

我觉得这有点令人沮丧,这需要2秒/次迭代。

另外,我有两个不同的hdf5文件,上面的布局,较大的一个文件慢得多。

我做错了什么?

1 个答案:

答案 0 :(得分:1)

尝试使用libver最新标志创建文件:

f = h5py.File('name.hdf5', libver='latest') 

如果每组有大量数据集或每个数据集的属性,这将会快得多。