我正在为大型网格数据集寻找一个好的存储格式。该应用程序是气象学,我们更喜欢这个领域中常见的格式(以帮助与他人交换数据)。我不需要处理特殊的数据结构,应该有一个Fortran API。我目前正在考虑HDF5,GRIB2和NetCDF4。
这些格式在数据压缩方面有何比较?它们的主要局限是什么?学习曲线有多陡峭?还有其他存储格式需要调查吗?
我没有找到大量材料,概述了这些格式的差异和优缺点(有一个相关的SO thread和a presentation比较GRIB和NetCDF。
答案 0 :(得分:3)
对不起,我不是气象学,但我认为科学界正朝着HDF5迈进,例如参见NERSC页面:
http://www.nersc.gov/users/training/online-tutorials/introduction-to-scientific-i-o/
我必须对天体物理数据采取相同的选择,因为我们历史上使用FITS,我发现很容易开始使用HDF5,因为不仅有fortran和C而且还有C ++的API,还有一个python包(h5py) )。
答案 1 :(得分:3)
我当然会考虑HDF5,因为它似乎是科学界的趋势。
另外,HDF5有内置过滤器(包括压缩过滤器),或者您也可以编写自己的过滤器。
最后看一下HDF5“chunked”数据集,因为如果你有网格数据集,它们可能会非常有用。