我一直在探索HDF5的数据存储功能,并发现它对于存储大型结果很有用。我的本地计算机上有一堆具有不同层次结构的hdf5文件。现在,我的目标是构建类似于这些文件的数据库/数据库结构,以便我可以对其执行基本查询。例如,假设我需要找到名称为“ ds”的数据集,那么我的搜索结果应包括具有给定字符串名称的HDF5文件中的所有数据集。
我将使用python 3.5构建这样的系统。一点点在线搜索使我找到了3种可用的API,它们可在python中用于HDF5。 h5py,熊猫和pytables。我以前用过熊猫,发现它很棒,所以我朝那个方向倾斜。还有一个不错的项目http://www.hdfql.com/;但我需要对此进行更多的挖掘。
另一个方向是将数据导入关系数据库,以便我可以执行sql,但这似乎破坏了将数据存储为hdf5格式的意义。
因此,我需要有关此的帮助/指针。