存储在HDF5中的数据尺寸

时间:2017-10-09 09:16:48

标签: python pandas hdf5

我有几个.h5个文件,其中包含使用.to_hdf方法创建的Pandas DataFrames。我的问题很简单:是否可以检索存储在.h5文件中的DataFrame的维度而无需将所有数据加载到RAM中?

动机:存储在那些HDF5文件中的DataFrame非常大(高达几Gb)并且加载所有数据只是为了获得数据的形状非常耗时。

1 个答案:

答案 0 :(得分:2)

你可能想直接使用PyTables。

API参考是here,但基本上是:

from tables import *
h5file = open_file("yourfile.h5", mode="r")
print h5file.root.<yourdataframe>.table.shape
print len(h5file.root.<yourdataframe>.table.cols) - 1 # first col is an index

另外,为了清楚起见,HDF5在打开数据集时不会读取所有数据。那将是熊猫的特色。