Question

我决定使用其分层结构将数据存储在HDF5中，而不是依赖于文件系统。不幸的是，我遇到了性能问题。

我的数据格式如下：我有大约70个顶级组，对应于日期，每个组包含大约8000个数据集。我想查看每天数据集数量的列表：

for date in hdf5.keys():
   print(len(hdf5[date]))

我觉得这有点令人沮丧，这需要2秒/次迭代。

另外，我有两个不同的hdf5文件，上面的布局，较大的一个文件慢得多。

我做错了什么？

Answer 1

尝试使用libver最新标志创建文件：

f = h5py.File('name.hdf5', libver='latest')

如果每组有大量数据集或每个数据集的属性，这将会快得多。