我曾在几个相当小规模的传统HDF5数据库上工作,每个数据库都使用分组来执行查找。例如,作为一个人为设想的例子,假设我有一个二维数据集,其中每个单元格映射回一个组,该组可以存储另一个数据集,该数据集包含与原始数据集中包含的ID相对应的数据。这很好但是一个项目基本上在关系数据库类型系统中使用hdf5。 (数据集包含要打开的组的值 - >组包含告诉我要打开的数据集名称的属性 - >最后获取数据)
由于hdf5具有内置压缩,因此存储冗余数据(例如在复合数据类型中)会产生更多。
当然,这取决于数据的要求/复杂性,但通常情况下,将冗余数据存储在HDF5中是不好的做法?