我有几个.h5
个文件,其中包含使用.to_hdf
方法创建的Pandas DataFrames。我的问题很简单:是否可以检索存储在.h5
文件中的DataFrame的维度而无需将所有数据加载到RAM中?
动机:存储在那些HDF5文件中的DataFrame非常大(高达几Gb)并且加载所有数据只是为了获得数据的形状非常耗时。
答案 0 :(得分:2)
你可能想直接使用PyTables。
API参考是here,但基本上是:
from tables import *
h5file = open_file("yourfile.h5", mode="r")
print h5file.root.<yourdataframe>.table.shape
print len(h5file.root.<yourdataframe>.table.cols) - 1 # first col is an index
另外,为了清楚起见,HDF5在打开数据集时不会读取所有数据。那将是熊猫的特色。