存储大型网格数据集

时间:2011-06-27 12:19:05

标签: compression file-format data-storage hdf5 netcdf

我正在为大型网格数据集寻找一个好的存储格式。该应用程序是气象学,我们更喜欢这个领域中常见的格式(以帮助与他人交换数据)。我不需要处理特殊的数据结构,应该有一个Fortran API。我目前正在考虑HDF5,GRIB2和NetCDF4。

这些格式在数据压缩方面有何比较?它们的主要局限是什么?学习曲线有多陡峭?还有其他存储格式需要调查吗?

我没有找到大量材料,概述了这些格式的差异和优缺点(有一个相关的SO threada presentation比较GRIB和NetCDF。

2 个答案:

答案 0 :(得分:3)

对不起,我不是气象学,但我认为科学界正朝着HDF5迈进,例如参见NERSC页面:

http://www.nersc.gov/users/training/online-tutorials/introduction-to-scientific-i-o/

我必须对天体物理数据采取相同的选择,因为我们历史上使用FITS,我发现很容易开始使用HDF5,因为不仅有fortran和C而且还有C ++的API,还有一个python包(h5py) )。

答案 1 :(得分:3)

我当然会考虑HDF5,因为它似乎是科学界的趋势。

另外,HDF5有内置过滤器(包括压缩过滤器),或者您也可以编写自己的过滤器。

最后看一下HDF5“chunked”数据集,因为如果你有网格数据集,它们可能会非常有用。

http://www.hdfgroup.org/