Question

我有很多与时间相关的科学数据要写，意味着数据应该每隔几秒写入hdf5文件。我的hdf5文件结构设计如下：

创建多个时间组，如time-1-group，time-2-group，time-3-group等...
在时间组中，创建了许多数据集，如DataSetA，DataSetB，DataSetC等......
将数据写入上面的数据集。

使用的API： HDF5-Fortran

运行这个程序，一切正常，但速度慢，如何提高hdf5的写入动作效率？非常感谢你。

Answer 1

您似乎正在将数据分段为每个时间段的组（我只是猜测您写的内容）。为所有数据集添加一个额外的维度可能更有效，这些维度将代表时间步骤并消除组，因为您可以在每次写入之前缓冲一堆迭代。

明确而不是：

/time-1-group
    /time-1-group/DataSetA -> 2d array
    /time-1-group/DataSetB -> 2d array
    ...
/time-2-group
    /time-2-group/DataSetA -> 2d array
    /time-2-group/DataSetB -> 2d array
    ...
...

你会得到这个：

/DataSetA -> 3d array where third index is time
/DataSetB -> 3d array where third index is time
...

您必须使用分块数据集并谨慎选择块大小以优化I / O效率（正如我上面所说，每个块可以有多个时间步长）。

如何提高HDF5 I / O（写文件）的效率？

1 个答案: