查询SQL + HDF5混合

时间:2013-07-19 15:15:22

标签: mysql database orm hdf5

我正在开发一种用于数据分析的混合SQL(带有mySQL)和HDF5数据库解决方案。我的一些数据非常适合关系和SQL作为查询语言非常方便和有效,但后来我有大数字数据(数千或元素/行/列的数组和矩阵)。因此,我将这些保存在HDF5文件中,并根据每个观察中的一些共性来排列组层次结构,这样,如果我添加了用于将该层次结构导出到SQL Select查询的字段,并在其中添加索引关系数据库与该特定观察数据集中的位置,我得到了所有我需要快速定位HDF5文件中的数字数据。

我用Python,Numpy和h5py编写所有这些内容。但是,在某些时候,我想让整个事情更加用户友好,甚至可以在网络服务器上进行查询和可视化。我最初的猜测是从像Django或SQLAlchemy这样的ORM开始,然后添加一些我的实际脚本来处理HDf5。有没有人有这种混合方法的经验,特别是在这个级别?有关新手的任何提示吗?

2 个答案:

答案 0 :(得分:1)

您可以使用检索文件中的HDF5数据集地址(使用H5Oget_info)并将其存储在数据库记录中。然后,数据集地址可以与H5Oopen_by_addr()一起使用,直接打开HDF5数据集,而无需遍历HDF5文件中的组层次结构。

请参阅: http://www.hdfgroup.org/HDF5/doc/RM/RM_H5O.html#Object-GetInfohttp://www.hdfgroup.org/HDF5/doc/RM/RM_H5O.html#Object-OpenByAddr

答案 1 :(得分:1)

您可能对这项工作感兴趣: Supporting a Light-Weight Data Management Layer over HDF5

BTW,在这项工作之后,已经开发了更多的功能,包括索引,采样和结构分组。